最新更新的LMArena排名里,文心 ERNIE-5.0拿下 1206 分,直接坐上国内视觉理解模型的头把交椅。
不过我没有很惊讶,因为之前用的感受是一致的,感觉就是正常发挥。
很多国产模型之前登上LMArena成绩不错,但视觉理解赛道是另一回事。
视觉是工业质检、医学影像、视频解读的主战场,也是最能暴露底层能力的地方。能进榜的就不多,能在榜上和 Claude4、GPT-5同一水平线并排的,目前只有文心。
只说技术先进、参数大,那都是场面话。关键走的路线,别人还真没法轻易复刻。
行业主流做法是“先做语言模型,再往上贴视觉模块”,像给大脑外挂一只眼睛;
文心 5.0 选择的则是原生多模态,直接从训练第一天起,就是多模态一起进化:语言、图像、视频、音频统统统一到一个自回归架构里。
我之前用文心 5.0 Preview 做几次测试,印象深的不是它能看懂图,是它能“串逻辑”。
比如短剧内容让它帮忙代看,它能把爽点、反转、时间节点标得有板有眼。
复杂的图表、混剪视频、跨模态任务?它几乎没有“读错”的情况。
所以对真正用过的人来说,看到它在视觉理解榜第一,应该不会震惊,会觉得“终于轮到你公布成绩了”。
文心 5.0 这次视觉理解第一,其实是 11 月以来的第二次“全球冲榜”。
11 月 8 日它刚在 LMArena 文本榜拿下全球并列第二、中国第一,海外研究圈一堆人出来讨论。
今天视觉理解榜一出,相当于又补了一刀——不是文本强,整体都挺强。
更有意思的是,海外学者对文心的评价,也都很技术向:
斯坦福研究员:文心 5.0 的全模态架构“印象深刻”。
亚利桑那州立大学研究员:极高评价它的“原生全模态世界表征”,认为它是在从底层重写多模态模型的认知方式。
……
他们看重的未必是分数,但是百度技术路线的未来可能性更值得关注。
模型这东西,上不了国际讨论区都没意义;但文心这次不仅上了,还被认真分析
这次,它在视觉理解榜上的成绩,真正在全球序列里排到了前列的位置,也是不说自明的国产之光。
我的判断是:未来一年,中国模型真正能走向海外开发者社区的,会是文心 5.0 这一类“路线独立、底层原创”的模型
这次视觉理解榜第一,是个开始,而不是终点
#文心5.0 #文心大模型 #视觉理解 #百度 #互联网大厂 #AI异类弗兰克
热门跟贴