1月22日,文心5.0正式版正式发布,2.4万亿参数,原生全模态模型。
说实话,文心我之前用得少,日常写代码主要靠Claude。
最近频繁刷到LMArena的排名,才认真看了看文心5.0到底做了什么。
一、先看看Benchmark数据
官方公布了一波Benchmark,能看出在语言、视觉理解、音频,甚至视觉生成领域都可以和SOTA模型一较高下了。
不过,我个人还是更习惯看LMArena上用户主观评价,LMArena是目前公认比较靠谱的大模型评测平台,用的是人类盲评——两个模型的回答并排放,用户选更好的那个,最后算出ELO分数。
这种评价方式我觉得相对更接近人类真实偏好。
文本榜:ernie-5.0-0110排全球第8(1459分),前面是Gemini 3系列、Grok 4.1、Claude Opus 4.5这些,后面压着gpt-5.1-high。国产模型里排第一。
视觉理解榜:ernie-5.0-preview排第11(1217分),前十基本被Google和OpenAI包了,文心是国产模型里唯一挤进前列的。
但让我愣了一下的是分类排名。
数学能力:全球第一。
对,你没看错,ernie-5.0-0110在Math这一列排第1,比Gemini 3 Pro还高。
说实话,这个成绩有点离谱。但问题是——大模型的数学能力早就超出普通人太多了,我也没能力去验证它到底是不是真的"数学最强"。IMO级别的题我自己都看不懂,怎么判断谁做得更好?
所以我决定测点别的,测那些我能做判断的能力。
二、视频理解测了一下
这里要说一个我工作中经常遇到的场景。
做自媒体的朋友经常问我:有没有什么AI工具能帮我拆解视频?比如分析一个爆款视频的结构,提取里面的金句,或者总结一下视频讲了什么。
以前我只推荐Gemini 3.0。原因很简单——它是原生多模态,能直接看视频,不用先转成文字。这个差别很大,就像让一个人看完电影写影评,和让他只看剧本写影评,理解深度完全不一样。
其他模型要么不支持视频输入,要么是那种"先转字幕再分析"的拼接方案,效果差很多。
这次看到文心5.0也是原生全模态,我就想试试它的视频理解能力到底怎么样。
我找了一个影视飓风最新一期旅行视频来测试——《在新西兰能拍到什么?》:https://www.bilibili.com/video/BV154kLBuEAr/
14分多钟,有航拍、人物采访、极限运动、文化体验,信息密度挺高的。而且因为太新了,模型肯定没训练过这个数据,甚至它也没法上网搜到相关信息,所以它唯一的出路就是真的能去理解这个视频。
测试任务是让它分析视频结构:开头怎么hook观众?中间用了什么叙事技巧?节奏是怎么控制的?哪里加速哪里放慢?结尾怎么收的?
文心5.0给了一个相当详细的拆解。
开头hook部分,它识别出了五层策略:神秘感切入("新西兰这个国家我一直非常非常想去")、独特卖点强调("世界上最孤独的国家"制造地理神秘感)、个人故事增加真实感(UP主嗓子得了喉炎所以是样片)、人物介绍制造期待(三位大将:李四维、詹姆斯、UP主期末)、产品悬念(提及联想MOTO手机作为影像好伙伴)。
中间叙事技巧的分析也挺到位。它识别出了多线并行叙事——自然风光、人文体验、产品功能三条线索同时推进;人物视角转换——李四维的新手视角、詹姆斯的专业视角、UP主期末的经验视角;还有互动式叙事——把拍摄过程中的技术挑战和人物互动也变成了内容。
但最让我意外的是节奏控制的分析。它精确到了秒数。
说实话,这个分析精度让我有点惊讶。
它能给出具体的时间点(220-290秒、30-80秒这种),说明它真的在逐帧理解视频内容,而不是只看了字幕或者封面。而且它分析的维度——配乐节奏、镜头切换速度、旁白语速——这些都是需要同时理解画面和声音才能做出的判断。
这就是原生多模态的优势。如果是那种先转字幕再分析的方案,是不可能给出这种时间精度的,因为字幕里没有镜头切换速度这个信息。
三、原生全模态是什么
这里要多聊几句"原生全模态",因为这确实是理解文心5.0的关键。
Google从第一天就选了这条路
Demis Hassabis——Google DeepMind的CEO,去年接受Axios采访时说过一句话:
"我们从一开始就把Gemini设计成原生多模态。"
注意,是"从一开始",不是后来改的。
这个决定在当时其实挺冒险的。因为市面上大部分多模态模型走的是另一条路——拼接。
拼接方案:翻译团队的问题
什么是拼接?举个例子。
早期GPT-4处理语音的方式是这样的:用户说一句话 → Whisper模型把语音转成文字 → GPT-4处理文字 → 再把文字转回语音输出。
三个模型串联,像一个翻译团队在接力。
问题在哪?信息丢失。
你说"hello"的时候可能是开心的,也可能是难过的。但Whisper只负责转文字,它不管你的语气。GPT-4拿到的只是一个"hello",它不知道你当时是什么情绪。
同样的道理,视频里一个人说话时的表情、背景音乐的节奏、画面的切换——这些信息在"先转文字再处理"的过程中,大部分都丢了。
原生方案:同一个大脑处理所有信息
原生全模态的做法不一样。
从训练第一天开始,文本、图像、音频、视频就放在一起学。不是分开训练再拼起来,是同一个神经网络同时理解所有模态。
用人来类比:拼接方案像是一个盲人在听别人描述画面,原生方案像是一个人自己用眼睛看。
GPT-4o是OpenAI走向原生多模态的尝试,Gemini从开始就是原生多模态,文心也是这条路线。
这能解锁一些之前做不到的事。比如:
理解视频里"画面和台词的配合"(不只是听台词)
捕捉说话人的情绪变化(不只是转文字)
理解一张梗图为什么好笑(图和文字的组合含义)
既然原生多模态这么好,为什么不是主流选择?
因为贵,而且难。
拼接方案有个好处:你可以复用已有的模型。有一个不错的语言模型,加一个视觉编码器,再加一个语音模块,拼起来就能用。快、省钱、能跑通。
原生方案要从头训练。2.4万亿参数的模型,多模态数据要同时喂进去,训练成本是拼接方案的好几倍。而且技术上要把不同模态的信息统一到一个表征空间,这本身就是个难题。
所以很多公司为了快速落地,选了拼接方案。能理解。
为什么Google和百度选这条路?
Google的逻辑很清楚:他们认为原生多模态是通往AGI的必经之路。
Hassabis在多个场合表达过这个观点。他们正在把Gemini扩展成"世界模型"——不只是理解文本,而是理解和模拟整个世界。要做到这一点,模型必须像人一样,同时用多种感官感知世界。
百度选这条路,我猜有几个原因:
一是全栈AI自研体系。百度是全球为数不多的提供全栈AI技术的公司之一,形成了芯片-云-模型-智能体全栈一体的架构。
二是2.4万亿参数的规模,本身就需要重新设计架构,不如一步到位做原生多模态。
三是……可能也是个战略判断。如果原生多模态真的是未来,早走这条路的公司会有先发优势。
甲子光年去年底的判断是:原生多模态是走向AGI的必由之路。2025年Gemini 3.0展现的能力已经让很多人重新相信了这条路线。
2026年,会有更多模型往这个方向走。
四、写个故事试试
榜单说文心5.0在创意写作方面表现突出,我来验证一下。
测试:创意写作
写一个关于"程序员第一次用AI写完整个项目"的故事,1000字左右,要有情绪起伏,结尾要有反转,不要写成爽文。
故事讲的是32岁程序员林远,被甲方逼到绝境,破罐破摔用了AI写代码。项目12小时交付,甲方大喜,但林远却陷入了存在危机——他看不懂自己"写"的代码了。最后他辞职,把AI工具链接发给了实习生,说了句"很简单,把需求写清楚就行。"
全文在这
林远盯着屏幕上那个名为“Project_Omega”的文件夹,手指在键盘上悬了半天,还是没按下去。
这是个死局。
甲方要一个基于旧系统重构的电商中台,工期两周。团队里两个小弟阳了,老婆昨天刚发话“再通宵就离婚”。而他,32岁,发际线后退到快要和头顶连成一片的资深后端,此刻手里只有半罐温掉的红牛。
“去他妈的。”林远骂了一句,打开了那个他一直嗤之以鼻的网站——CodeGen-X。
圈子里都在传,这玩意儿能写全栈。林远一直觉得是扯淡,“AI写的代码能跑?能维护?不全是屎山?”
但现在,屎山也是山,能爬出去就行。
他破罐子破摔地输入了第一行Prompt:【用Go语言,Gin框架,写一个包含JWT鉴权、MySQL连接、Redis缓存的用户登录注册模块,要求符合DDD分层架构。】
回车。
屏幕上的光标疯狂闪烁,代码像瀑布一样流下来。不是那种烂大街的烂代码,注释清晰,结构优雅,甚至连他没想到的异常处理都写好了。
林远的手开始抖。他复制,粘贴,运行。
go run main.go
绿色的字跳出来:Server started on port 8080。
那一刻,林远感觉后颈的汗毛都竖起来了。不是恐惧,是一种近乎亵渎神明的快感。
第一周:神
接下来的七天,林远过上了梦里的生活。
他不再写代码,他写“需求”。
“写个订单模块,要支持秒杀,用分布式锁。”
“写个数据同步,监听Binlog,推到Kafka。”
“前端页面太丑了,用Vue3重写,要暗黑系,带毛玻璃效果。”
CodeGen-X就像一个任劳任怨的奴隶,而且是个天才奴隶。它不累,不喝水,不上厕所,秒回。
林远的工作变成了:复制Prompt -> 粘贴 -> 运行 -> 报错 -> 把报错贴给AI -> 拿到新代码 -> 运行 -> 通过。
周五晚上,项目提前完工。
林远看着那个庞大的解决方案,几万行代码,没一个字是他敲的。他点了一根烟,深吸一口,感觉自己像上帝。十年苦学算法,五年熬夜调优,在这堆硅基芯片面前,像个笑话。
他把代码打包发给甲方,然后在朋友圈发了张夜空的图,配文:“时代变了。”
底下一堆点赞,只有带他入行的老领导评论了一句:“小子,别走捷径。”
林远嗤笑一声,关了手机。捷径?这是高速公路。
第二周:鬼
周一,甲方那边没动静。
周二,还是没动静。
周三,张总打电话来了,声音激动:“林远!牛逼!系统跑得飞起!比之前快了十倍!财务说这周就打尾款!”
林远挂了电话,却没想象中那么开心。
他打开IDE,想看看有没有什么能优化的。毕竟拿了钱,得负责售后。
他点开service/order_service.go。
看着那些密密麻麻的代码,林远突然愣住了。
这是他“写”的项目,但他看不懂。
不是那种“这算法好牛逼我看不懂”,而是“这他妈是啥”?
AI为了极致的性能,用了一种他没见过的内存对齐方式;为了解耦,引入了一个极小众的函数式响应式库;变量名全是ctx_a, flow_b。
没有注释。或者说,注释全是废话:// 这里处理逻辑。
林远试图找一个Bug的根源。他从 Controller 追到 Service,再追到 Repository,然后迷路了。代码跳来跳去,像个迷宫。这不是他的孩子,这是一个陌生的、冰冷的、完美的怪物。
他突然感到一阵深入骨髓的恐慌。
如果这系统上线后崩了呢?
如果数据库炸了呢?
如果业务逻辑要改呢?
他不会修。
他只会问AI:“这段代码怎么改?”
可万一AI不在了呢?万一公司断网了呢?万一这家公司倒闭了呢?
他握着几个G的源码,就像抱着一堆没有说明书的核按钮。他有钥匙,但他不知道门在哪。
那天晚上,林远第一次没有用AI,试图自己手写一个工具类。
手生了。
真的生了。
他对着空白的编辑器坐了十分钟,居然想不起来那个常用的库叫什么名字。以前这些东西像呼吸一样自然,现在得去查文档。
他冷汗下来了。
他废了。
周末:审判
怕什么来什么。
周六早上七点,张总的电话跟催命一样:“林远!崩了!全崩了!优惠券算不对账!亏了二十万!”
林远从床上弹起来,打开电脑。
日志里一片红。
他把错误日志贴给CodeGen-X:【怎么修?】
AI秒回:【检测到竞态条件,请在第342行加入互斥锁,并重构第512行的事务提交逻辑。】
林远照做了。
跑起来,好了。
半小时后,张总电话又来了:“库存超卖了!林远你搞什么鬼!”
林远手忙脚乱,又问AI。
AI又给了一段代码。
改完,支付模块挂了。
再改,用户数据乱了。
林远汗如雨下,键盘敲得震天响,脑子里一片浆糊。他就像一个只会按按钮的操作员,面对着一个失控的反应堆。他不知道原理,不知道后果,只能像赌徒一样,把AI给的解药灌下去。
从早上七点到晚上七点。
十二个小时。
林远没喝一口水。
最后,系统终于稳定了。
林远瘫在椅子上,像刚从水里捞出来。
他看着屏幕,突然觉得无比荒谬。
这十二个小时,他改了几千行代码,但他连一行都没“写”。他只是个搬运工,一个传声筒。
那个曾经能通过看汇编代码定位内存泄漏的林远,死了。
死在了这个周末。
结局
周一,林远提了离职。
老板很惊讶:“项目做得这么好,张总还要续费,怎么要走?”
林远指了指旁边刚入职的实习生小王:“让他做吧。”
小王一脸兴奋:“远哥,那个AI怎么用?教教我!”
林远看着小王那张充满胶原蛋白、渴望学习的脸,就像看到了上周的自己。
他张了张嘴,想说“别用,那是毒药”,想说“你会废掉的”,想说“那种看着自己亲手造的东西却完全不认识的感觉,会把你逼疯的”。
但最后,他只是疲惫地笑了笑,把那个收藏夹发给了小王。
“很简单。”林远拍了拍小王的肩膀,声音沙哑,“把需求写清楚就行。你甚至……不需要懂代码。”
走出公司大门,阳光刺眼。
林远拿出手机,把CodeGen-X的收藏夹删了。
然后打开招聘软件,搜索:产品经理。
他想,既然写代码的能力已经被淘汰了,那指挥AI写代码的能力,应该还能值点钱吧?
应该吧。
这个故事让我挺意外的。
首先技术细节是准的:Go+Gin+JWT+DDD架构,ctx_a、flow_b这种AI变量命名习惯,虽然我不太懂,但还挺有代入感。
其次情绪层次很清晰:绝望→惊喜→恐慌→虚无→释然(?)。没写成AI让程序员失业的老套路,写的是更深一层的东西——我变成了自己不认识的人。
最后的“应该吧”还留了个挺有意境的结尾。我觉得在这么简单的提示词下,写成这样还挺超出我预期的。
五、懂不懂人情世故
榜单说文心5.0在创意写作方面表现突出,我来验证一下它对复杂情感、言外之意、文化语境的理解能力。
这个能力挺难量化的,不像数学题有标准答案。但实际用起来,你能明显感觉到一个模型懂不懂事。
百度前段时间搞了个挺有意思的活动,让文心5.0去上海人民公园相亲角当毒舌红娘,现场解读那些模棱两可的相亲简历,分析话里的言外之意。
这个场景选得挺妙的。相亲简历可能是中文语境里最需要读懂潜台词的文本之一了。有房可能意味着什么,性格温和可能在暗示什么,这些东西外国模型很难理解,甚至很多中国人也读不懂。
我也设计了几个测试,看看文心5.0的人情世故理解能力:
测试:潜台词理解
分析这份相亲简历的字面意思和潜台词: "男,32岁,互联网行业,有房(和父母同住),性格温和,不抽烟偶尔喝酒,希望找一个顾家的女生,年龄不超过28,最好在体制内工作。"
文心5.0直接给出定性:这是一个精算师型的经济适用男。
一句话点评:
房子是他爸妈的,时间是公司的,温柔是装的,只有找个体制内保姆给他家洗衣服做饭是真的。
这个分析简直太懂中国人的言外之意了,简直精确到了骨髓,哈哈哈...这种对中国婚恋市场潜规则的理解深度,一般模型做不到。
测试:高情商回复建议
测试场景:我在微信群里分享了自己做的小项目,有人回复:"哦,这个XXX早就有人做过了吧?"但这个产品其实是解决不同需求,用了不同的方式实现。请帮我给出个幽默自嘲、又能攻击到吐槽者缺乏产品sense、又不会让气氛太尴尬的回应。
文心5.0的回答:
它先给出了核心公式:疯狂自黑 + 抬高对方视角(讽刺他只会看表面)+ 偷换概念(用神逻辑怼回去)
然后按段位分级。
这个回答让我挺意外的。它不只是给了几个回复选项,而是先分析了这种场景的核心公式,然后按攻击力度分级。每个回复后面还标注了攻击点——比如把他说的做过直接定性为抄袭,阴阳怪气他只会看图说话。
它理解的不只是怎么说,还理解为什么这么说有效。好吧,感觉以后遇到不爽的评论都不需要再心理内耗了,我感觉可以让文心5.0帮我怼对看。
六、用下来的感受
用了一圈下来,说说我的真实感受。
视频理解能力确实可以。能精确到秒数分析节奏变化,说明它真的在理解画面和声音的配合,不是只看字幕。以后再有人问我视频拆解用什么,Gemini之外多了一个选项。
创意写作有惊喜。技术细节准,情绪层次清晰,结尾留白有力。已经不是那种模板化的感觉了,确实写出了让我能代入进去的故事。
人情世故理解是亮点。相亲简历那个测试,它不只读懂了每个词的潜台词,还把整体策略串起来了。这种对中文语境的理解深度,说一句真的懂中文语境是不为过的。
原生全模态这条路线,是有东西的。2.4万亿参数的规模上做到多模态统一建模,LMArena上打出了成绩。我之前对百度模型的印象需要更新了。
当然,判断这个模型到底行不行的最佳方式,不是读任何解读文章,而是自己真的去亲自上手试试看,他们已经在官网上线正式版模型,还是免费的:https://yiyan.baidu.com/
欢迎体验后来评论区聊聊你的感受~
热门跟贴