万字深度｜面壁智能，在效率的极限处，连续穿越AGI的周期|多模态|大模型|智能体|算法|面壁智能

站在2026年的今天回看，中国大模型产业的叙事，大多围绕两个关键词展开：规模与应用。

一方面，是不断被刷新参数上限的模型竞赛，仿佛只有“更大”才能通向“更强”；另一方面，是围绕API调用、Agent与行业落地展开的商业化肉搏。几乎所有公司，都在这两条路径之间寻找自己的位置，试图在算力军备竞赛与用户增长之间求得一线生机。

但如果把时间线拉长，会发现有一类公司，其路径并不完全遵循这两条主线。

面壁智能就是其中一个典型。

这家公司并不以参数规模见长，在传播上也不追求高调，但它却长期领跑在另一条更隐蔽的技术轨道上：围绕“如何在有限资源下构建更高能力的模型”这一问题，持续推进。

这使它形成了一种少见的技术路线——不是由产品规模或用户数量定义，而是由一套稳定且一贯的技术判断所塑造。在巨头林立、算力为王的时代，面壁智能走出了一条以“智能密度”为核心，从云端向端侧，从通用向垂直的“精益”突围之路。

——导语

不是参与者，而是范式的连续跨越者

通往AGI的道路上，企业发展路径的城头变幻大王旗，甚至比技术的焕新来的更快。

2023年5月，行业曾用“AI六小虎”总结中国大模型创业的核心阵营：智谱AI、MiniMax、百川智能、零一万物、月之暗面、阶跃星辰。这些明星公司均有着履历光鲜的创始团队，一度被视为中国大模型产业的风向标。

然而，资本的聚光灯远比技术路径更易转向。短短两年间，这个组合已经面目全非。2025年1月，零一万物创始人李开复明确宣布不再追求训练超大模型，公司逐渐转变为一家AI应用与工程公司。2025年9月，百川智能创始人王小川通过全员信明确——专注医学，减少多余动作。两员大将前后脚退出了基座模型的竞赛。

取而代之的是新概念的涌现。“AGI五小龙”成为了继“六小虎”之后新的行业明星群体。这一组合中的五家企业——智谱AI、MiniMax、月之暗面、阶跃星辰与面壁智能——都以AGI为终极目标。

前四家早已声名在外，而面壁智能，则是最新加入这一行列、也最具路径个性的那一个。

这是一家既“老”且“新”的公司。

说它“老”，是因为其核心团队至今仍和清华大学NLP实验室（THUNLP）有着极其密切的联动，其在大模型领域的积累可以追溯到2019年，甚至更早。2020年12月，团队发布了国内首个中文大模型CPM-1，成为后来中国奠基性大模型“悟道”系列的首发主力阵容。可以说，这支团队亲历了中国大模型从无到有的全过程。

说它“新”，是因为面壁智能在2022年8月才正式成立，且这一时间点要早于ChatGPT引发的创业热潮——这意味着面壁的创业决策并非跟风，而是基于团队对技术趋势的独立研判。而它真正旗帜鲜明地主攻端侧大模型，则是在2023年8月之后完成的一次战略性转折。

这就是面壁智能最核心的特征：与技术成就相比，其真正的核心能力，并不仅仅在于某一具体技术栈，而在于核心团队对“范式切换”的持续判断能力——从知识图谱转向预训练，从预训练到高效训练，从大参数模型转向端侧高效模型、再到今年火热的本地类Claw产品,甚至 AI 制造 AI——每一次转换，面壁都踩在了技术范式更迭的前夜。

国内的公司无论是大厂还是以技术出身的创业公司，脱离了中国高校的学术圈之后都会有一个问题——他们很难时刻紧跟最前沿的技术。而面壁不同，它始终与清华实验室保持着深度连接，由此保持了许多思想上的活力。

换言之，面壁不只是一家公司，它是一个从学术创新土壤中持续汲取养分的有机体。

传统的技术竞争像是攀登珠峰，目标明确，大家比拼的是谁爬得快；而大模型时代更像是一片沙漠里的“淘宝”，没有人知道宝藏（AGI）的确切坐标，大家都在根据自己的直觉和地图摸索。更重要的是，即使你挖到了宝藏，但随时可能有人挖到更大宝藏的消息传来，让你痛悔不已——本质上，这是一场追求谁能活下来和持续发现宝藏的“无限游戏”。

而面壁之所以选择端侧，并非因为端侧是终点，而是因为在资源极度受限的端侧“沙漠”中，他们找到了一条能让自己活得更久、跑得更快的路径。

这是一家罕见的，对走一条完全自主的技术路线心里有数，并有超前洞见性的企业。它并不盲目追随“大力出奇迹”的主流叙事，而是选择了一条人迹罕至的“密度定律”之路。

从“密度定律”出发的技术路线

2023年，当整个行业都在为ChatGPT 的发布而颤抖，纷纷砸下重金试图堆砌算力复刻“千亿美元级”的模型时，面壁智能却在做一件看起来“很蠢”的事：他们砍掉了原本计划中的万亿参数大模型（CPM-D），转而全力投入一个参数规模极小的模型研发。

从2020年GPT-3问世后联合智源研究院做出中国第一个十亿级参数的的中文大模型CPM-1，到 2022年做出百亿级参数的CPM-B，再到2023年8月果断暂停万亿参数路线并转向端侧——每一次行业拐点的到来，面壁似乎都提前半步闻到了风向——这就是我前面提到的“洞见力”。

这种判断力在2023年的那个夏天达到了关键一跃。当时，“六小虎”们都在疯狂融资、囤积算力，目标是“谁先达到GPT-4水平谁就是霸主”。面壁却在一个内部会议上做出了一个反共识的决定：不做万亿模型。

“当时走了这条路，之后很有可能就是万劫不复的深渊，”面壁智能首席研究员韩旭回忆，“会抽干所有资源，最后还不一定达到效果。”

2023年8月，面壁正式将战略目标调整为：在2024年发布一个参数小于百亿、能力约等于ChatGPT的模型。这个决定在当时看来近乎冒险——当所有人都在往云上冲刺时，为什么要往终端转移？

因为面壁意识到，云侧大模型的道路过于拥挤。更重要的是，云侧大模型的计算成本、运营成本和隐私问题，使其难以真正“让智能走进千家万户”——而这句话，恰好是面壁智能的slogan。

于是，一个大胆的目标被定了下来：做一个小于百亿参数的模型，让它达到ChatGPT的水平，并通过终端设备赋能千家万户。这是面壁端侧路线的真正起点。

但端侧并不是一个随意选择的结果，它背后有一套完整的技术哲学，也就是如今被称为“大模型领域的摩尔定律”的“密度定律”。

所谓的大模型智能的密度定律，来自于面壁团队持续的探索。可以说，对这个规律的探索和感悟，才是支持面壁智能发展的底层思维模式——大模型的智能密度每100天提升一倍。

这其中，智能密度 = 模型能力 / 推理算力能耗。

2025年，这一规律得到进一步深化，面壁智能的高层在公开演讲中指出：大模型智能密度每3.3个月翻一番，意味着同等能力的模型，在3.3个月后仅需要一半的参数就能实现。

这就是面壁的核心理论框架。当行业普遍将参数规模视为能力核心时，面壁已经转向了一个不同的函数：参数规模只是大模型的变量之一，而不是决定性变量。真正决定模型价值的，是单位参数所承载的有效智能。

这一思路的自然结果，在工程层面，就体现为在模型尺寸的收敛与效率的飙升这两个看似矛盾的追求中寻找最佳平衡点。

但这种平衡不是没有上限的，它建立在主流端侧的算力限制之内。韩旭回忆说：“这个上限，在这一定律最早成型的时代背景下，是能够在一台采用高通骁龙8gen3芯片和8GB内存的手机上，勉强跑起来当时主流大模型的能力。”

严格的硬件上限之内对性能的极致追求，也是沿着这条路，面壁智能才一步步走到了今天。

回看面壁端侧模型的产品迭代时间线，可以清晰地看到这条密度定律在工程层面的兑现过程：

2024年2月，面壁推出首个端侧大模型MiniCPM，仅用24亿参数的模型实现了超越同期百亿参数模型的能力，一出手就打响了“小钢炮”的名号。

此后，他们用40亿参数的模型，实现了接近甚至超越GPT-3.5的能力；用80亿参数模型逼近GPT-4的能力。这打破了“模型必须大”的迷信，证明了通过架构优化和数据质量的提升，小模型也能具备大智慧。

为了在有限资源下训练大模型，面壁很早就自研了分布式训练框架BMTrain。这不仅是对标DeepSpeed或Megatron的工程实现，更是其“密度定律”的体现——仅用32张卡甚至更少的资源，就可以启动百亿级模型的训练，极大地降低了大模型的准入门槛。

更重要的是，在开始大批量训练模型之前，他们建立了一套“模型风洞”机制——借鉴航空工业的空气动力学理论，在小模型上快速实验、验证方案，再推演到大尺寸模型上。“我们在小范围内把所有方案都尝试完之后，最终得到一个最优方案，再去训更大尺寸的模型，”韩旭解释，“这样可以降低大量的试错成本。”

随后接踵而至的，就是面壁在两到三年里冲到端侧超头部的一连串惊人之举。

2024年5月，多模态端侧模型MiniCPM-V发布，以80亿参数实现了多模态综合性能超越GPT-4V、Gemini Pro等云侧模型，首次在手机、平板等终端设备上实现多模态实时推理。

但让这款模型真正广为人知的，是其后来被美国顶尖高校斯坦福的一个AI团队抄袭，引发了国际学术圈的轩然大波，最终以抄袭者致歉撤下模型告终。

面壁的端侧多模态研究果也于2024年 7 月登上《Nature》子刊《Nature Communications》，标志着中国高效大模型的技术创新获得国际学术界的最高认可

2025年1月，MiniCPM-o 2.6发布，以80亿参数量在iPad上实现媲美GPT-4o的全模态实时流式视频理解与高级语音对话能力，成为开源社区彼时最强语音通用模型与最强端侧视觉通用模型。

2025年8月，MiniCPM-V 4.5开源，以80亿参数量实现视频理解、OCR、文档解析能力的端侧SOTA，用别人不到九分之一的参数做到了更强的效果。

2026年1月，行业首个全双工全模态大模型MiniCPM-o 4.5发布，仅90 亿参数的精简体量，实现了语音、视频、文本的全模态同步交互，从「一问一答」进化为「类人即时自由对话」。

目前看大模型公司，已经过了单看参数量的阶段，更核心的pk是迭代速度和再迭代速度。而面壁证明了这两个能力，自己全都具备。

具备的最有力证据，就是图中的这条迭代曲线：

注：「密度定律」的曲线图

有人问：为什么面壁智能明明走的是一条看似不那么主流的端侧路线，但却依旧被归集于“AGI五小龙”的行列中？

这是因为，端侧不是算力贫弱的代名词，而是一种可攻可守的研发策略，它的终点同样是AGI，而且是智力密度更高的AGI。

韩旭对此有一个精准的总结：“训练端侧模型的过程也是寻找大模型方法论的过程，能让端侧模型训练成功的方法论，把参数规模放大，卡加多，很快就能把更大的模型给训出来。只要掌握了方法论，训练极大参数规模的模型，难点更多的是在算力基础设施高效性和稳定性等工程性问题上。通向AGI的路线，是学术、工程、资源分配的组合优化问题。”

换言之，做端侧模型的技术积累是向上兼容的，但反过来却未必能行。一个长期聚焦云侧的大模型公司可能并不知道如何让大模型在手机芯片上以最佳效率运行。小参数尺寸的端侧模型对数据质量会更为敏感，对大参数尺寸云侧大模型成功的方案未必能成功训练端侧模型。但面壁则随时可以把小模型的技术“放大”。只要给它足够的资源和不长的时间，它就可以是一家标准意义上的大模型前沿企业。

韩旭举的一个例子十分有趣：“现在开源的大模型家族里，不乏有极其优秀的大模型家族衍生出的小尺寸模型，最经典的比如Meta的Llama，它们也可以在端侧设备上面跑，但它的效率绝对无法超过面壁智能的同尺寸模型。归根结底，是其仍然采用了较原始的Transformer架构，而没有充分考虑端侧的特点进行设计。相反，我们同样通过很多精巧的架构设计和模型强化训练，使之更符合密度定律，也因此才能在端侧更具竞争力——而这是那些主打大尺寸模型的企业很少会有的积累和水磨功夫。”

事实也证明了这一点——面壁不仅在端侧领先，在法律领域等需要大参数模型，但由于合规性的要求又必须在本地设备上实现数据闭环的业务上，同样具备全栈能力。甚至可以说的大一点——限制条件越多的环境，面壁的优势就越明显。

换言之，面壁强迫自己小，是因为追求小而精，同时具备随时变大的能力，正如那句俗语一样：“金麟本非池中物，一遇风云便化龙”。

小团队的“跨层能力”与穿越周期的韧性

在组织形态上，面壁呈现出另一种反常识的特征：规模不大，但技术能力覆盖面极广。

面壁的团队规模远小于互联网巨头，也小于其它“小虎”，甚至核心研发人员只有几十人。然而，这几十人的团队却同时具备了三类稀缺能力，构成了其“跨层能力”的护城河。

首先，是模型结构的精益优化能力：面壁拥有极强的算法创新能力。从早期的CPM系列到MiniCPM，他们通过MoE（混合专家）架构、稀疏化计算等技术，实现了模型的“瘦身”与“增肌”。

在这个追求小而更强的过程中，面壁不是单纯做应用调优，也不是只在模型之上叠一层 Prompt 或 Agent 框架，而是深入到训推框架、数据治理、结构优化等大模型全技术链路。

从训练框架BMTrain，到后来的稀疏架构InfLLM、低比特量化方法BitCPM、推理框架CPM.cu和ArkInfer，这些组件都集成在 MiniCPM 系列（尤其是 MiniCPM-4）中，形成了体系化的高效端侧大模型方案，而且指向了同一个方向：不是仅仅“使用”现成大模型，而是在重新组织和加速“模型如何被训练、被部署、被优化”的过程。

“抽象起来，大模型技术就两条线”，韩旭分析，“数据决定模型能力，芯片和架构决定模型效率，前者是高质量的数据治理，后者是高度软硬协同的架构设计与优化。”

面壁与DeepSeek被业内称为两家“国内最会做架构改进的公司"，但两者的战场截然不同：DeepSeek紧抓云侧大算力场景，在万卡集群上榨干算力价值；面壁则聚焦单张端侧芯片，在功耗、散热、访存带宽的严苛约束下追求极致效率。很多大模型企业，采用保守的传统架构，通过同一批数据训练多个尺寸模型；面壁则针对端侧芯片特性，做了大量稀疏计算、近存计算等底层优化。

其次，是数据与训练方法的独特性：面壁是行业内最早提出“数据质量优于数据规模”的团队之一。他们不盲目堆砌数据，而是通过数据合成、清洗和蒸馏技术，构建了高信息密度的训练集。

韩旭曾谈起，早期团队在 ChatGPT 爆发前后，就已经做了大量指令微调和数据合成探索，也开源了很多有影响力的数据集，只是当时还没有把它单独作为一个显性技术点提出来。也就是说，他们早期对于模型对齐、数据合成、蒸馏、用大模型清洗和扩展训练数据这些方法，十分熟悉。

而在此后，MiniCPM 系列相关产品里，高质量数据样本混入、多阶段数据精细安排、用大模型辅助数据构造等做法，已经成为其“小模型高性能”路线的一部分。

最后，也是最强悍的是，面壁科技具备对底层硬件的极致优化能力。

这是面壁最独特的“扫地僧”属性。

在采访中，面壁的受访人透露，几乎所有国产芯片厂商在遇到软件栈优化难题时，都会直接找到面壁。面壁不仅是技术使用者，更是技术验证者与构建者。他们参与了协助华为昇腾、鲲鹏，以及寒武纪、天数智芯等国产芯片构建和优化软件栈，甚至能在没有GPU的情况下，利用华为鲲鹏CPU实现大模型推理。

也就是说，硬件企业在自家的软件团队之外，还经常会找来面壁智能做外脑。这样的结果，是面壁智能与国产硬件企业有了极其密切的联系。

一个鲜明的例子，是我们前面提到的，2026年1月，MiniCPM-o 4.5发布。具有标志性的意义的是，该模型发布当天即完成对六大主流AI芯片（天数智芯、华为昇腾、平头哥、海光、沐曦等）的适配与开源上线，实现端到端推理性能全面超越各芯片原生方案。如果没有和硬件厂家长期的配合，一个端侧模型极少能得到这样的各家宠爱。

当然，这也是被逼出来的。在面壁最早的公司化阶段，做 Infra 不是锦上添花，而是生存所迫。当时的各种问题，如算力不足、国产芯片不成熟、现成框架不完善，这“逼着我们必须往下走”。

也正因此，团队后来逐渐发展出对芯片、推理框架和底层软件栈的较强适配与优化能力。面壁今年也在不断解决一个现实问题：端侧芯片是碎片化的，如果不能在算法和硬件之间实现解耦、代码复用和跨平台高效部署，模型再强也很难真正落地。ArkInfer 这类技术，实际上解决的就是“一次开发，处处运行”的问题。

这意味着，面壁并不只是技术使用者，它也是技术验证者和构建者。

在很多公司里，模型结构、数据训练、硬件部署、商业化应用常常是彼此分开的：有人只做模型，有人只做工程，有人只管卖产品。而面壁的罕见之处，在于它把这些能力压进了同一个组织之中，使得其人才的能力密度极高，正因为如此，它的影响力并不首先体现在用户规模和市场声量上，而体现在它为什么能持续穿越周期上。

同样值得关注的是面壁的“前进四”人才培养机制。

面壁内部将研发团队视为一个“人才培养平台”——首席科学家刘知远和韩旭本身就是清华教师，他们在面壁的身份是“带人做前沿探索”，培养最顶尖的大模型人才，那些技术栈成熟、能独当一面的人才，会被输送到各团队领导前沿项目同时培养更多人才。这种产学研深度融合的工作机制有效解决了大模型前沿技术高速演进与产业化需求之间的经典矛盾，也就是我们说的“始终有新鲜血液进来”的问题。因此面壁智能的一大优势是原生的高水平人才培养能力。

从 GPT-3 的“大力出奇迹”，到 DeepSeek 等路线所代表的“优质、低成本训练”，再到智能体时代，面壁看到的从来不是一个固定答案，而是一连串问题定义方式的变化。面壁之所以能归入今天所谓“AGI 五小龙”的讨论范围，不是因为它突然变高调了，而是因为行业逐渐意识到：当大模型竞争从“谁更大”转向“谁更高效、谁更可落地、谁更适合分发”时，面壁这类公司的价值反而会越来越明显。

正是这种“以一当十”的技术密度，赋予了面壁穿越周期的能力。

端侧模型的光明未来

在大部分AGI企业还在被反复追问“未来商业的终局模式到底是什么”的时候，面壁智能的商业化图景，显得既实在，又有很高的天花板。

首先，是端侧路线中的“端”的价值。

和很多新的AI能力都处于“灵魂找不到肉体”的迷茫中不同，“端侧”一开始就决定了面壁智能的商业化落地道路很清晰。

这是因为，没有一个清晰功能定位的“端侧”，是根本不会被制造出来的。

汽车就是最大的端侧设备之一。以谷歌的Waymo为例，所有的自动驾驶能力都建立在端侧之上，只有极少数非驾驶场景中会用到云侧，这也改变了人们对端侧“弱”的刻板印象，告诉人们：端侧也可以很强大。

在汽车领域，MiniCPM系列先后搭载于长安马自达EZ-60和吉利银河M9等量产车型，合作方覆盖吉利、长安、大众、广汽、长城、极氪等头部车企。2025年，面壁将汽车业务线提升为一级组织，直接向CEO李大海汇报。

在具身智能方向，面壁与乐聚机器人联合研发的人形机器人已深度集成MiniCPM-V 4.5端侧多模态模型，可实现在嘈杂环境中的实时视觉理解与主动决策。

我们能接触到的一切“端”，如手机、PC、车、可穿戴设备、边缘设备、具身智能、智能驾驶，都在渴求更大的端侧能力——这些终端场景的共同特点，是对成本、时延、响应速度、私密性和可持续运行有现实要求。云侧大模型把能力集中在 API 上，适合训练和统一调度，但成本高、调用重、依赖网络，也天然不适合所有场景。相比之下，端侧模型如果足够强，就意味着能力可以被“分布化”地放置到各类设备之中：成本结构被重构，调用门槛下降，场景适配变得更灵活。

除了传统意义上的硬件端侧，“龙虾”、“爱马仕”等智能体调度框架，也极大的拉升了面壁智能的发展想像的天花板。

所有的人都在养虾或养马，但也都困惑于安全、成本、易用性等问题上，而在面壁智能的布局中，这些已经有了答案——在智能体时代，端侧模型的意义远不止“没有网络时的平替”，它指向三个“协同”：端云协同、软硬协同、数模协同。端云协同解决的是成本与隐私的平衡；软硬协同意味着模型设计与芯片发展的紧密耦合；数模协同则指向记忆管理，面壁联同清华开源的UltraRAG框架，就试图解决智能体“自己养虾养出bug”的混乱现状，让数据与模型能力形成双向迭代。

更深层的变革还藏在于AI能力的分发方式。如果未来终端芯片持续进化，甚至可能出现ASIC化的端侧AI芯片——将大模型能力直接“焊”入硬件，彻底摆脱对云的依赖。

“如果走到那一天，不存在云这个概念，去中心化就是终局，”韩旭说，“大家都有自己的AI infa，不再依赖中心化的集群在部署给所有人服务。”

这不仅是技术的变革，更是AI和人关系的一种重塑，对此，面壁智能想的很远很远——面壁智能创始人刘知远提出的“密度定律”和“摩尔定律”既是两个时代的产物，又同样对端侧算力和端侧模型能力的发展有惊人的预测洞察——

“摩尔定律”下，算力分为了超算、云算与端算，其中端算是云算的十四倍（IDC数据显示）；同样，“密度定律”下，根据智力的密度，大模型智能也将分为超级智能（AI for Science，让 AI 像人类最强大脑科学家们一样解决最难的科学问题）、云上智能与端侧智能。

如果把两个定律对照起来看，我们不难得出这样的结论——未来大模型智能的中最耀眼的可能属于超级智能，但从广度和渗透率上，搭载端侧大模型的设备量可能是现在手机保有量的几倍、几十倍，像面壁智能这样建立起端侧护城河的企业，未来的商业天花板是极高的。

结语

在一个被参数规模与资本驱动的时代，面壁智能提供了一种不同的参照系。

它的价值，不在于是否拥有最大的模型，也不在于是否拥有最多的用户，而在于：它持续在回答一个更基础的问题——模型究竟如何变强？

在“大算力+大数据”的暴力美学之外，面壁智能证明了“高智能密度+极致工程化”的可行性。它像一个在沙漠中寻找宝藏的智者，不靠人海战术，而是依靠精准的罗盘（技术判断）和高效的行军（工程能力）。

通往AGI的路线，我们需要探索更多的可能性。面壁智能走了一条看上去人更少，但难度更高甚至是最高的路径。这或许就是它最终成功的终局模式的前提：在效率的极限处，看见未来。