对话墨芯人工智能郭威俊：“不拿大炮打蚊子”，死磕推理成本优化|人工智能|大模型|对话墨芯|打蚊子|推理|算力|郭威俊

《科创板日报》6月3日讯（记者王耐）当你在对话框里敲下“我家附近哪里能洗车”，背后可能有一个万亿参数的模型正在兢兢业业地分析“洗车”这个词的千百种含义。你问AI“今天牙痛怎么办”，它却调动了万亿参数来理解“牙痛”的哲学内涵。

这就是当前AI算力的真实困境：大模型参数站上万亿级别，AI算力需求激增，但大部分实际场景中的AI推理，也许不需要这么“用力”。推理成本高企，也成为产业落地的最大卡点。

这正是稀疏计算要解决的核心问题。稀疏计算只激活模型中的有效参数，跳过冗余计算，在同等精度下大幅降低推理成本。随着AI从“训练竞赛”转向“推理普惠”，稀疏计算正从可选路径变为必选答案。

墨芯人工智能就是稀疏计算领域的其中一家。

这家成立于2018年的稀疏计算企业，刚刚完成近十亿元C轮融资，本轮融资汇聚了深创投、岩山科技、大湾区共同家园、力鼎资本、蕴盛资本等重磅产业资本及市场化机构，凯旋创投、华大松禾天使基金、创享投资、盛景嘉成等多家老股东共同参与。此时，距离上一轮蚂蚁集团领投的B轮已过去整整两年。据悉，B轮融资由蚂蚁集团领投，盛景嘉成跟投；A+轮融资由金浦投资上海金融科技基金领投，华大松禾天使基金、岩山科技战略跟投，多家财务机构、老股东将门创投继续跟投。

在这样一个时间节点完成大额融资，墨芯想对外传递什么信号？

“我们下决心要帮行业降低推理成本。”墨芯人工智能市场部副总裁郭威俊给出了几个理由：二代卡即将推出、商业化进入加速期。

二代卡年内推出，对标主流产品

“酒香也怕巷子深。”坐在记者对面的墨芯人工智能市场部副总裁郭威俊，开门见山地解释了公司为何选择在这个时间点走向台前。

据墨芯透露，公司第二代计算卡SparsePrime®预计将在年内正式推出。这款产品将基于多地千卡集群积累的真实负载数据设计，性能对标市面上主流的国产推理卡。

“我们认为在二代卡推出之后，我们应该能够成为主流的、值得客户考虑的选项。”向来低调的墨芯这样定义自身在国产芯片阵营中的角色——不是要取代华为或寒武纪，而是成为“国产替代的重要选手和稀疏计算领域的领头羊”。

墨芯一向强调了软硬协同，而非单纯比拼硬件制程。“我们不只是做稀疏计算的硬件加速卡，我们更关注在‘稀疏计算+芯片架构+软件工具链+软硬件协同+集群解决方案’的体系化能力。”据了解，目前公司50%到60%的人，覆盖在软件层。

在2022年，墨芯推出首颗芯片Antoum®。基于此，公司推出了SparseOne系列 AI 计算卡 S4、S10、S30 和 S40。

墨芯一代卡在实际客户场景中，“在不损精度的情况下，基本上稀疏加速能够做到2到4倍”。这一数字来自大语言模型、政务安防、能源、基因测序等真实生产环境，而非实验室跑分。

本轮融资的核心投向正是第二代计算卡的研发和量产。与此同时，算力网络版图也在加速扩张。未来12-18个月，墨芯将在全国战略区域部署算力中心，形成覆盖东中西部的算力服务网络——西北片区重点支撑当地政务数字化和传统产业智能化转型；西南片区，加速算力中心项目落地，构建低功耗绿色算力池；华东片区，部署面向金融、生物医药等和前沿科研的高性能推理算力集群；华北片区，聚焦重点工业基地，赋能传统重工业的智能化升级与数字化转型。

目前，公司已在陕西、浙江等地部署了千卡级推理集群，在真实生产环境中持续运行。积累的稀疏负载数据，正用于反哺下一代芯片架构。

产学研方面，墨芯与清华大学、复旦大学、杭州电子科技大学、卡内基梅隆大学等院校保持合作，在“半结构化稀疏”方向开展横向课题研究。公司在稀疏计算领域拥有100多项专利，创始团队来自卡内基梅隆大学的AI科学家及英特尔、Marvell等核心芯片量产团队。

“不拿大炮打蚊子”，死磕推理成本优化

一个1.6万亿参数的稠密模型，在处理“今天牙痛怎么办”这样简单的问题时，依然会激活全部参数。这就是稠密计算的根本困境：全参数激活，算力成本高昂。

郭威俊在采访中说得直白：“不用大炮的价钱打蚊子。”

他进一步解释：“大部分公司的AI需求没那么复杂。可能他现在需要的就是一个电蚊拍，但你非要让他买大炮。我们要解决的问题就是——不要让你用大炮的价钱打蚊子。”

从一个坦诚的回答中可见墨芯的选择，稀疏技术本身并非不可逾越的壁垒，真正的差异在于战略选择——很多同行押注在通用大模型，而墨芯选择同时布局“通用+垂直行业定制”。

“纯粹去拼参数、拼公关能力、拼市场能力，不大可能竞争得过资金雄厚的大公司。”他，“而且大部分企业的AI需求没那么复杂，不需要大而全的方案。他们更需要的是业务匹配和成本可控。”

这也是墨芯的核心定位——把推理成本打下来，让AI算力真正走向大规模应用。相比“大而全”，墨芯选择在细分赛道深耕——生物信息学分析、政务、运营商等垂直领域，在推理场景中追求极致性价比。

目前，墨芯在通用和行业定制两大板块的业务比例是60%和40%。其中垂直行业定制上，生物信息学分析、政务、通讯运营商几大领域商业化落地较快。

墨芯的一个真实案例给人留下深刻印象：“某政务安防项目，驻场一个月，性价比提升6倍，算力提升4到5倍。原本需要几千张卡，现在几百张卡就能完成同样任务，TCO（总拥有成本）提升2.7倍。”

目前，墨芯的稀疏计算方案已在多个领域落地：

生命科学与医疗健康：在生命科学、基因检测等领域已有明确项目交付，加速基因测序数据分析流程，缩短科研与临床决策周期；与医疗生信头部企业合作，加速基因测序数据分析流程，用于高通量测序、蛋白质结构预测等计算密集型任务；
城市治理与智慧社区：与华北高校合作智慧社区项目，落地人脸表情识别、人体姿态识别等应用，实现对社区异常行为的实时智能监测与预警；
智能制造与工业视觉：在电子制造、玩具工厂等场景落地安防CV项目，实现安全生产监控和产线异常识别等；
酒店文旅服务行业：与头部商旅酒店集团合作，探索稀疏计算在酒店智慧化管理和服务提质中的应用场景；
汽车与车路协同：正在探索V2X应用可能性，目前处于预研阶段，预计Q4有阶段性进展。

从“买流量”到“买token”：推理市场的百倍增长

对于行业未来，业界研究人士判断是：推理市场将迎来100-120倍的增长空间。

市场调研机构IDC则预计，到2028年推理工作负载占比将达到73％。随着OpenClaw（龙虾）智能体应用规模化铺开，将进一步推动算力需求向推理侧迁移。