《科创板日报》6月3日讯(记者 王耐)当你在对话框里敲下“我家附近哪里能洗车”,背后可能有一个万亿参数的模型正在兢兢业业地分析“洗车”这个词的千百种含义。你问AI“今天牙痛怎么办”,它却调动了万亿参数来理解“牙痛”的哲学内涵。

这就是当前AI算力的真实困境:大模型参数站上万亿级别,AI算力需求激增,但大部分实际场景中的AI推理,也许不需要这么“用力”。推理成本高企,也成为产业落地的最大卡点。

这正是稀疏计算要解决的核心问题。稀疏计算只激活模型中的有效参数,跳过冗余计算,在同等精度下大幅降低推理成本。随着AI从“训练竞赛”转向“推理普惠”,稀疏计算正从可选路径变为必选答案。

打开网易新闻 查看精彩图片

墨芯人工智能就是稀疏计算领域的其中一家。

这家成立于2018年的稀疏计算企业,刚刚完成近十亿元C轮融资,本轮融资汇聚了深创投、岩山科技、大湾区共同家园、力鼎资本、蕴盛资本等重磅产业资本及市场化机构,凯旋创投、华大松禾天使基金、创享投资、盛景嘉成等多家老股东共同参与。此时,距离上一轮蚂蚁集团领投的B轮已过去整整两年。据悉,B轮融资由蚂蚁集团领投,盛景嘉成跟投;A+轮融资由金浦投资上海金融科技基金领投,华大松禾天使基金、岩山科技战略跟投,多家财务机构、老股东将门创投继续跟投。

在这样一个时间节点完成大额融资,墨芯想对外传递什么信号?

“我们下决心要帮行业降低推理成本。”墨芯人工智能市场部副总裁郭威俊给出了几个理由:二代卡即将推出、商业化进入加速期。

二代卡年内推出,对标主流产品

“酒香也怕巷子深。”坐在记者对面的墨芯人工智能市场部副总裁郭威俊,开门见山地解释了公司为何选择在这个时间点走向台前。

据墨芯透露,公司第二代计算卡SparsePrime®预计将在年内正式推出。这款产品将基于多地千卡集群积累的真实负载数据设计,性能对标市面上主流的国产推理卡。

“我们认为在二代卡推出之后,我们应该能够成为主流的、值得客户考虑的选项。”向来低调的墨芯这样定义自身在国产芯片阵营中的角色——不是要取代华为或寒武纪,而是成为“国产替代的重要选手和稀疏计算领域的领头羊”。

墨芯一向强调了软硬协同,而非单纯比拼硬件制程。“我们不只是做稀疏计算的硬件加速卡,我们更关注在‘稀疏计算+芯片架构+软件工具链+软硬件协同+集群解决方案’的体系化能力。”据了解,目前公司50%到60%的人,覆盖在软件层。

在2022年,墨芯推出首颗芯片Antoum®。基于此,公司推出了SparseOne系列 AI 计算卡 S4、S10、S30 和 S40。

打开网易新闻 查看精彩图片

墨芯一代卡在实际客户场景中,“在不损精度的情况下,基本上稀疏加速能够做到2到4倍”。这一数字来自大语言模型、政务安防、能源、基因测序等真实生产环境,而非实验室跑分。

本轮融资的核心投向正是第二代计算卡的研发和量产。与此同时,算力网络版图也在加速扩张。未来12-18个月,墨芯将在全国战略区域部署算力中心,形成覆盖东中西部的算力服务网络——西北片区重点支撑当地政务数字化和传统产业智能化转型;西南片区,加速算力中心项目落地,构建低功耗绿色算力池;华东片区,部署面向金融、生物医药等和前沿科研的高性能推理算力集群;华北片区,聚焦重点工业基地,赋能传统重工业的智能化升级与数字化转型。

目前,公司已在陕西、浙江等地部署了千卡级推理集群,在真实生产环境中持续运行。积累的稀疏负载数据,正用于反哺下一代芯片架构。

打开网易新闻 查看精彩图片

产学研方面,墨芯与清华大学、复旦大学、杭州电子科技大学、卡内基梅隆大学等院校保持合作,在“半结构化稀疏”方向开展横向课题研究。公司在稀疏计算领域拥有100多项专利,创始团队来自卡内基梅隆大学的AI科学家及英特尔、Marvell等核心芯片量产团队。

“不拿大炮打蚊子”,死磕推理成本优化

一个1.6万亿参数的稠密模型,在处理“今天牙痛怎么办”这样简单的问题时,依然会激活全部参数。这就是稠密计算的根本困境:全参数激活,算力成本高昂。

郭威俊在采访中说得直白:“不用大炮的价钱打蚊子。”

他进一步解释:“大部分公司的AI需求没那么复杂。可能他现在需要的就是一个电蚊拍,但你非要让他买大炮。我们要解决的问题就是——不要让你用大炮的价钱打蚊子。”

从一个坦诚的回答中可见墨芯的选择,稀疏技术本身并非不可逾越的壁垒,真正的差异在于战略选择——很多同行押注在通用大模型,而墨芯选择同时布局“通用+垂直行业定制”。

“纯粹去拼参数、拼公关能力、拼市场能力,不大可能竞争得过资金雄厚的大公司。”他,“而且大部分企业的AI需求没那么复杂,不需要大而全的方案。他们更需要的是业务匹配和成本可控。”

这也是墨芯的核心定位——把推理成本打下来,让AI算力真正走向大规模应用。相比“大而全”,墨芯选择在细分赛道深耕——生物信息学分析、政务、运营商等垂直领域,在推理场景中追求极致性价比。

目前,墨芯在通用和行业定制两大板块的业务比例是60%和40%。其中垂直行业定制上,生物信息学分析、政务、通讯运营商几大领域商业化落地较快。

打开网易新闻 查看精彩图片

墨芯的一个真实案例给人留下深刻印象:“某政务安防项目,驻场一个月,性价比提升6倍,算力提升4到5倍。原本需要几千张卡,现在几百张卡就能完成同样任务,TCO(总拥有成本)提升2.7倍。”

目前,墨芯的稀疏计算方案已在多个领域落地:

  • 生命科学与医疗健康:在生命科学、基因检测等领域已有明确项目交付,加速基因测序数据分析流程,缩短科研与临床决策周期;与医疗生信头部企业合作,加速基因测序数据分析流程,用于高通量测序、蛋白质结构预测等计算密集型任务;
  • 城市治理与智慧社区:与华北高校合作智慧社区项目,落地人脸表情识别、人体姿态识别等应用,实现对社区异常行为的实时智能监测与预警;
  • 智能制造与工业视觉:在电子制造、玩具工厂等场景落地安防CV项目,实现安全生产监控和产线异常识别等;
  • 酒店文旅服务行业:与头部商旅酒店集团合作,探索稀疏计算在酒店智慧化管理和服务提质中的应用场景;
  • 汽车与车路协同:正在探索V2X应用可能性,目前处于预研阶段,预计Q4有阶段性进展。

从“买流量”到“买token”:推理市场的百倍增长

对于行业未来,业界研究人士判断是:推理市场将迎来100-120倍的增长空间。

市场调研机构IDC则预计,到2028年推理工作负载占比将达到73%。随着OpenClaw(龙虾)智能体应用规模化铺开,将进一步推动算力需求向推理侧迁移。

打开网易新闻 查看精彩图片

资本押注的逻辑是:目前中国AI用户的渗透率约10%,未来有望达到互联网的90%以上水平;同时,人均使用频次也将大幅提升。两相叠加,推理需求的基本盘扩张是确定性事件。

更重要的是,算力的商业模式正在发生变化。从早年买通话时长,到买短信套餐,再到买流量包——接下来将是“买token”的时代。近期,三大运营商已推出 Token 套餐。

“运营商已经在做算力适配了。”他透露,墨芯已与三大运营商建立业务合作,共同探索面向政企客户的算力服务。

墨芯将持续在稀疏加速上迭代,“第二代卡出来之后,部分客户有可能做到7-10倍的加速比,这是我们的目标,而且是非常有希望的”。同时,墨芯也在前瞻布局物理AI和具身智能时代的算力需求。

现在布局还来得及么?

记者得到一个坦诚而不失乐观的回答,“现在0到1入局有点晚,未来两年很关键,能不能拿到重要市场份额,一定程度上甚至直接预告了这家公司的未来。”

为什么如此判断?芯片是一个非常烧钱的行业。“推出新一代芯片,花销在千万美金甚至上亿,很多公司一轮融资的钱只够制成一张卡。”这也是为什么墨芯要在垂直领域的定制化和商业化上下功夫——一方面带来正向现金流,为芯片研发提供资金补充;另一方面,用下游客户真实的声音来反哺研发。

“服务最好的客户,拿到最多的订单,对看清未来技术趋势也有帮助。订单最多的人,对市场的洞察和感知能力一定更强。”

打开网易新闻 查看精彩图片

“做难而正确的事”,对墨芯来说,难而正确的事情就是——在实际场景中先跑起来。

“市场化的过程,无外乎就是产品的性价比和市场需求的贴合程度,这两件事绝对绕不开。做到这件事,是难而正确的。”

“比如有些安防类客户,有几十个摄像头。他考虑的就是一张卡能支撑400个摄像头还是600个摄像头,这个数字对应着实打实的成本。”他们要做的,就是在这些数字上死磕。

在现实的商业决策中,英伟达强大的CUDA生态、以及华为昇腾、寒武纪等国产头部芯片厂商的激烈竞争,构成了严峻的竞争格局。墨芯的定位是:在稀疏推理的专精赛道做领头羊,用性价比和定制化能力赢得客户,再用实际的商用经验和数据反哺芯片设计。

“我们比较务实,从老板到销售,更愿意看到实际问题通过我们的方案得到解决。”为什么要这样做,因为“技术行业的正向循环很明确:满足客户需求→收获更多订单→现金流改善→吸引更好的人才→形成更好的产业优势”。

“这条路很难,但我们认为是正确的。” 郭威俊说。