2.4万亿参数的国产「全模态模型」发布，文心5.0一手实测|代码|全模态模型|文心|新论文|算法|翻译

1月22日，文心5.0正式版正式发布，2.4万亿参数，原生全模态模型。

说实话，文心我之前用得少，日常写代码主要靠Claude。

最近频繁刷到LMArena的排名，才认真看了看文心5.0到底做了什么。

一、先看看Benchmark数据

官方公布了一波Benchmark，能看出在语言、视觉理解、音频，甚至视觉生成领域都可以和SOTA模型一较高下了。

不过，我个人还是更习惯看LMArena上用户主观评价，LMArena是目前公认比较靠谱的大模型评测平台，用的是人类盲评——两个模型的回答并排放，用户选更好的那个，最后算出ELO分数。

这种评价方式我觉得相对更接近人类真实偏好。

文本榜：ernie-5.0-0110排全球第8（1459分），前面是Gemini 3系列、Grok 4.1、Claude Opus 4.5这些，后面压着gpt-5.1-high。国产模型里排第一。

视觉理解榜：ernie-5.0-preview排第11（1217分），前十基本被Google和OpenAI包了，文心是国产模型里唯一挤进前列的。

但让我愣了一下的是分类排名。

数学能力：全球第一。

对，你没看错，ernie-5.0-0110在Math这一列排第1，比Gemini 3 Pro还高。

说实话，这个成绩有点离谱。但问题是——大模型的数学能力早就超出普通人太多了，我也没能力去验证它到底是不是真的"数学最强"。IMO级别的题我自己都看不懂，怎么判断谁做得更好？

所以我决定测点别的，测那些我能做判断的能力。

二、视频理解测了一下

这里要说一个我工作中经常遇到的场景。

做自媒体的朋友经常问我：有没有什么AI工具能帮我拆解视频？比如分析一个爆款视频的结构，提取里面的金句，或者总结一下视频讲了什么。

以前我只推荐Gemini 3.0。原因很简单——它是原生多模态，能直接看视频，不用先转成文字。这个差别很大，就像让一个人看完电影写影评，和让他只看剧本写影评，理解深度完全不一样。

其他模型要么不支持视频输入，要么是那种"先转字幕再分析"的拼接方案，效果差很多。

这次看到文心5.0也是原生全模态，我就想试试它的视频理解能力到底怎么样。

我找了一个影视飓风最新一期旅行视频来测试——《在新西兰能拍到什么？》：https://www.bilibili.com/video/BV154kLBuEAr/

14分多钟，有航拍、人物采访、极限运动、文化体验，信息密度挺高的。而且因为太新了，模型肯定没训练过这个数据，甚至它也没法上网搜到相关信息，所以它唯一的出路就是真的能去理解这个视频。

测试任务是让它分析视频结构：开头怎么hook观众？中间用了什么叙事技巧？节奏是怎么控制的？哪里加速哪里放慢？结尾怎么收的？

文心5.0给了一个相当详细的拆解。

开头hook部分，它识别出了五层策略：神秘感切入（"新西兰这个国家我一直非常非常想去"）、独特卖点强调（"世界上最孤独的国家"制造地理神秘感）、个人故事增加真实感（UP主嗓子得了喉炎所以是样片）、人物介绍制造期待（三位大将：李四维、詹姆斯、UP主期末）、产品悬念（提及联想MOTO手机作为影像好伙伴）。

中间叙事技巧的分析也挺到位。它识别出了多线并行叙事——自然风光、人文体验、产品功能三条线索同时推进；人物视角转换——李四维的新手视角、詹姆斯的专业视角、UP主期末的经验视角；还有互动式叙事——把拍摄过程中的技术挑战和人物互动也变成了内容。

但最让我意外的是节奏控制的分析。它精确到了秒数。

说实话，这个分析精度让我有点惊讶。

它能给出具体的时间点（220-290秒、30-80秒这种），说明它真的在逐帧理解视频内容，而不是只看了字幕或者封面。而且它分析的维度——配乐节奏、镜头切换速度、旁白语速——这些都是需要同时理解画面和声音才能做出的判断。

这就是原生多模态的优势。如果是那种先转字幕再分析的方案，是不可能给出这种时间精度的，因为字幕里没有镜头切换速度这个信息。

三、原生全模态是什么

这里要多聊几句"原生全模态"，因为这确实是理解文心5.0的关键。

Google从第一天就选了这条路

Demis Hassabis——Google DeepMind的CEO，去年接受Axios采访时说过一句话：

"我们从一开始就把Gemini设计成原生多模态。"

注意，是"从一开始"，不是后来改的。

这个决定在当时其实挺冒险的。因为市面上大部分多模态模型走的是另一条路——拼接。

拼接方案：翻译团队的问题

什么是拼接？举个例子。

早期GPT-4处理语音的方式是这样的：用户说一句话 → Whisper模型把语音转成文字 → GPT-4处理文字 → 再把文字转回语音输出。

三个模型串联，像一个翻译团队在接力。

问题在哪？信息丢失。

你说"hello"的时候可能是开心的，也可能是难过的。但Whisper只负责转文字，它不管你的语气。GPT-4拿到的只是一个"hello"，它不知道你当时是什么情绪。

同样的道理，视频里一个人说话时的表情、背景音乐的节奏、画面的切换——这些信息在"先转文字再处理"的过程中，大部分都丢了。

原生方案：同一个大脑处理所有信息

原生全模态的做法不一样。

从训练第一天开始，文本、图像、音频、视频就放在一起学。不是分开训练再拼起来，是同一个神经网络同时理解所有模态。

用人来类比：拼接方案像是一个盲人在听别人描述画面，原生方案像是一个人自己用眼睛看。

GPT-4o是OpenAI走向原生多模态的尝试，Gemini从开始就是原生多模态，文心也是这条路线。

这能解锁一些之前做不到的事。比如：

理解视频里"画面和台词的配合"（不只是听台词）
捕捉说话人的情绪变化（不只是转文字）
理解一张梗图为什么好笑（图和文字的组合含义）

为什么不是所有公司都这么做？

既然原生多模态这么好，为什么不是主流选择？

因为贵，而且难。

拼接方案有个好处：你可以复用已有的模型。有一个不错的语言模型，加一个视觉编码器，再加一个语音模块，拼起来就能用。快、省钱、能跑通。

原生方案要从头训练。2.4万亿参数的模型，多模态数据要同时喂进去，训练成本是拼接方案的好几倍。而且技术上要把不同模态的信息统一到一个表征空间，这本身就是个难题。

所以很多公司为了快速落地，选了拼接方案。能理解。

为什么Google和百度选这条路？

Google的逻辑很清楚：他们认为原生多模态是通往AGI的必经之路。

Hassabis在多个场合表达过这个观点。他们正在把Gemini扩展成"世界模型"——不只是理解文本，而是理解和模拟整个世界。要做到这一点，模型必须像人一样，同时用多种感官感知世界。

百度选这条路，我猜有几个原因：

一是全栈AI自研体系。百度是全球为数不多的提供全栈AI技术的公司之一，形成了芯片-云-模型-智能体全栈一体的架构。

二是2.4万亿参数的规模，本身就需要重新设计架构，不如一步到位做原生多模态。

三是……可能也是个战略判断。如果原生多模态真的是未来，早走这条路的公司会有先发优势。

甲子光年去年底的判断是：原生多模态是走向AGI的必由之路。2025年Gemini 3.0展现的能力已经让很多人重新相信了这条路线。

2026年，会有更多模型往这个方向走。

四、写个故事试试

榜单说文心5.0在创意写作方面表现突出，我来验证一下。

测试：创意写作

写一个关于"程序员第一次用AI写完整个项目"的故事，1000字左右，要有情绪起伏，结尾要有反转，不要写成爽文。

故事讲的是32岁程序员林远，被甲方逼到绝境，破罐破摔用了AI写代码。项目12小时交付，甲方大喜，但林远却陷入了存在危机——他看不懂自己"写"的代码了。最后他辞职，把AI工具链接发给了实习生，说了句"很简单，把需求写清楚就行。"

全文在这

林远盯着屏幕上那个名为“Project_Omega”的文件夹，手指在键盘上悬了半天，还是没按下去。
这是个死局。
甲方要一个基于旧系统重构的电商中台，工期两周。团队里两个小弟阳了，老婆昨天刚发话“再通宵就离婚”。而他，32岁，发际线后退到快要和头顶连成一片的资深后端，此刻手里只有半罐温掉的红牛。
“去他妈的。”林远骂了一句，打开了那个他一直嗤之以鼻的网站——CodeGen-X。
圈子里都在传，这玩意儿能写全栈。林远一直觉得是扯淡，“AI写的代码能跑？能维护？不全是屎山？”
但现在，屎山也是山，能爬出去就行。
他破罐子破摔地输入了第一行Prompt：【用Go语言，Gin框架，写一个包含JWT鉴权、MySQL连接、Redis缓存的用户登录注册模块，要求符合DDD分层架构。】
回车。
屏幕上的光标疯狂闪烁，代码像瀑布一样流下来。不是那种烂大街的烂代码，注释清晰，结构优雅，甚至连他没想到的异常处理都写好了。
林远的手开始抖。他复制，粘贴，运行。
go run main.go
绿色的字跳出来：Server started on port 8080。
那一刻，林远感觉后颈的汗毛都竖起来了。不是恐惧，是一种近乎亵渎神明的快感。
第一周：神
接下来的七天，林远过上了梦里的生活。
他不再写代码，他写“需求”。
“写个订单模块，要支持秒杀，用分布式锁。”
“写个数据同步，监听Binlog，推到Kafka。”
“前端页面太丑了，用Vue3重写，要暗黑系，带毛玻璃效果。”
CodeGen-X就像一个任劳任怨的奴隶，而且是个天才奴隶。它不累，不喝水，不上厕所，秒回。
林远的工作变成了：复制Prompt -> 粘贴 -> 运行 -> 报错 -> 把报错贴给AI -> 拿到新代码 -> 运行 -> 通过。
周五晚上，项目提前完工。
林远看着那个庞大的解决方案，几万行代码，没一个字是他敲的。他点了一根烟，深吸一口，感觉自己像上帝。十年苦学算法，五年熬夜调优，在这堆硅基芯片面前，像个笑话。
他把代码打包发给甲方，然后在朋友圈发了张夜空的图，配文：“时代变了。”
底下一堆点赞，只有带他入行的老领导评论了一句：“小子，别走捷径。”
林远嗤笑一声，关了手机。捷径？这是高速公路。
第二周：鬼
周一，甲方那边没动静。
周二，还是没动静。
周三，张总打电话来了，声音激动：“林远！牛逼！系统跑得飞起！比之前快了十倍！财务说这周就打尾款！”
林远挂了电话，却没想象中那么开心。
他打开IDE，想看看有没有什么能优化的。毕竟拿了钱，得负责售后。
他点开service/order_service.go。
看着那些密密麻麻的代码，林远突然愣住了。
这是他“写”的项目，但他看不懂。
不是那种“这算法好牛逼我看不懂”，而是“这他妈是啥”？
AI为了极致的性能，用了一种他没见过的内存对齐方式；为了解耦，引入了一个极小众的函数式响应式库；变量名全是ctx_a, flow_b。
没有注释。或者说，注释全是废话：// 这里处理逻辑。
林远试图找一个Bug的根源。他从 Controller 追到 Service，再追到 Repository，然后迷路了。代码跳来跳去，像个迷宫。这不是他的孩子，这是一个陌生的、冰冷的、完美的怪物。
他突然感到一阵深入骨髓的恐慌。
如果这系统上线后崩了呢？
如果数据库炸了呢？
如果业务逻辑要改呢？
他不会修。
他只会问AI：“这段代码怎么改？”
可万一AI不在了呢？万一公司断网了呢？万一这家公司倒闭了呢？
他握着几个G的源码，就像抱着一堆没有说明书的核按钮。他有钥匙，但他不知道门在哪。
那天晚上，林远第一次没有用AI，试图自己手写一个工具类。
手生了。
真的生了。
他对着空白的编辑器坐了十分钟，居然想不起来那个常用的库叫什么名字。以前这些东西像呼吸一样自然，现在得去查文档。
他冷汗下来了。
他废了。
周末：审判
怕什么来什么。
周六早上七点，张总的电话跟催命一样：“林远！崩了！全崩了！优惠券算不对账！亏了二十万！”
林远从床上弹起来，打开电脑。
日志里一片红。
他把错误日志贴给CodeGen-X：【怎么修？】
AI秒回：【检测到竞态条件，请在第342行加入互斥锁，并重构第512行的事务提交逻辑。】
林远照做了。
跑起来，好了。
半小时后，张总电话又来了：“库存超卖了！林远你搞什么鬼！”
林远手忙脚乱，又问AI。
AI又给了一段代码。
改完，支付模块挂了。
再改，用户数据乱了。
林远汗如雨下，键盘敲得震天响，脑子里一片浆糊。他就像一个只会按按钮的操作员，面对着一个失控的反应堆。他不知道原理，不知道后果，只能像赌徒一样，把AI给的解药灌下去。
从早上七点到晚上七点。
十二个小时。
林远没喝一口水。
最后，系统终于稳定了。
林远瘫在椅子上，像刚从水里捞出来。
他看着屏幕，突然觉得无比荒谬。
这十二个小时，他改了几千行代码，但他连一行都没“写”。他只是个搬运工，一个传声筒。
那个曾经能通过看汇编代码定位内存泄漏的林远，死了。
死在了这个周末。
结局
周一，林远提了离职。
老板很惊讶：“项目做得这么好，张总还要续费，怎么要走？”
林远指了指旁边刚入职的实习生小王：“让他做吧。”
小王一脸兴奋：“远哥，那个AI怎么用？教教我！”
林远看着小王那张充满胶原蛋白、渴望学习的脸，就像看到了上周的自己。
他张了张嘴，想说“别用，那是毒药”，想说“你会废掉的”，想说“那种看着自己亲手造的东西却完全不认识的感觉，会把你逼疯的”。
但最后，他只是疲惫地笑了笑，把那个收藏夹发给了小王。
“很简单。”林远拍了拍小王的肩膀，声音沙哑，“把需求写清楚就行。你甚至……不需要懂代码。”
走出公司大门，阳光刺眼。
林远拿出手机，把CodeGen-X的收藏夹删了。
然后打开招聘软件，搜索：产品经理。
他想，既然写代码的能力已经被淘汰了，那指挥AI写代码的能力，应该还能值点钱吧？
应该吧。