国产模型在海外的讨论，已经完全不一样了...

AI异类

2025-11-22 16:09 ·北京 ·优质科技领域创作者

最新更新的LMArena排名里，文心 ERNIE-5.0拿下 1206 分，直接坐上国内视觉理解模型的头把交椅。

不过我没有很惊讶，因为之前用的感受是一致的，感觉就是正常发挥。

很多国产模型之前登上LMArena成绩不错，但视觉理解赛道是另一回事。

视觉是工业质检、医学影像、视频解读的主战场，也是最能暴露底层能力的地方。能进榜的就不多，能在榜上和 Claude4、GPT-5同一水平线并排的，目前只有文心。

只说技术先进、参数大，那都是场面话。关键走的路线，别人还真没法轻易复刻。

行业主流做法是“先做语言模型，再往上贴视觉模块”，像给大脑外挂一只眼睛；

文心 5.0 选择的则是原生多模态，直接从训练第一天起，就是多模态一起进化：语言、图像、视频、音频统统统一到一个自回归架构里。

我之前用文心 5.0 Preview 做几次测试，印象深的不是它能看懂图，是它能“串逻辑”。

比如短剧内容让它帮忙代看，它能把爽点、反转、时间节点标得有板有眼。

复杂的图表、混剪视频、跨模态任务？它几乎没有“读错”的情况。
所以对真正用过的人来说，看到它在视觉理解榜第一，应该不会震惊，会觉得“终于轮到你公布成绩了”。
文心 5.0 这次视觉理解第一，其实是 11 月以来的第二次“全球冲榜”。

11 月 8 日它刚在 LMArena 文本榜拿下全球并列第二、中国第一，海外研究圈一堆人出来讨论。

今天视觉理解榜一出，相当于又补了一刀——不是文本强，整体都挺强。

更有意思的是，海外学者对文心的评价，也都很技术向：
斯坦福研究员：文心 5.0 的全模态架构“印象深刻”。
亚利桑那州立大学研究员：极高评价它的“原生全模态世界表征”，认为它是在从底层重写多模态模型的认知方式。
……
他们看重的未必是分数，但是百度技术路线的未来可能性更值得关注。
模型这东西，上不了国际讨论区都没意义；但文心这次不仅上了，还被认真分析

这次，它在视觉理解榜上的成绩，真正在全球序列里排到了前列的位置，也是不说自明的国产之光。

我的判断是：未来一年，中国模型真正能走向海外开发者社区的，会是文心 5.0 这一类“路线独立、底层原创”的模型

这次视觉理解榜第一，是个开始，而不是终点

#文心5.0 #文心大模型 #视觉理解 #百度 #互联网大厂 #AI异类弗兰克

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴