零一万物Yi-Large登顶全球盲测榜单李开复：中美差距已缩短至6个月|chatbot|openai|李开复|盲测|谷歌

上周，一个名为“im-also-a-good-gpt2-chatbot”的神秘模型突然现身大模型竞技场Chatbot Arena，排名直接超过GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b等各家国际大厂的当家基座模型。随后OpenAI揭开“im-also-a-good-gpt2-chatbot”神秘面纱——正是GPT-4o的测试版本，OpenAI CEO Sam Altman也在Gpt-4o发布后转帖引用 LMSYS arena 盲测擂台的测试结果。

资料显示，由开放研究组织 LMSYS Org （Large Model Systems Organization）发布的Chatbot Arena已经成为OpenAI、Anthropic、Google、Meta等国际大厂“龙争虎斗”的当红擂台。

时隔一周，在最新更新的排名中，这次排名飞速上涨的模型是由中国大模型公司零一万物提交的“Yi-Large” 千亿参数闭源大模型。

据悉，在 LMSYS 盲测竞技场最新排名中，零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第7，中国大模型中第一，已经超过Llama-3-70B、Claude 3 Sonnet；其中文分榜更是与GPT4o 并列世界第一。

值得一提的是，Yi-Large的中文语言分榜上拔得头筹，与 OpenAI 官宣才一周的地表最强 GPT4o 并列第一，Qwen-Max 和 GLM-4在中文榜上也都表现不凡。

与此同时，在编程能力（Coding）排行榜上，Yi-Large 的Elo分数超过Anthropic 当家旗舰模型 Claude 3 Opus，仅低于GPT-4o，与GPT-4-Turbo、GPT-4并列第二。长提问（Longer Query）榜单上，Yi-Large同样位列全球第二。

在今天的访谈中，零一万物CEO 李开复向网易科技等媒体表示，LMSYS提供了一个第三方的、公正的平台，其他竞争对手也都非常认可。而零一万物的团队规模、参数规模、GPU算力都比排名更靠前的模型“小”。

关于小模型相关规划，李开复谈到，我们的计划是从最小到最大的模型都能够做到中国最好，在6B、9B、34B等等，未来可能有更小的模型发布，它们都是同样尺寸达到业界最佳，不敢说第一，但是总体来说是第一梯队或者是最好的一两名，而且在很多方面，在代码方面、中文方面、英文方面表现都非常好。

谈及国产大模型的价格战，李开复回应，国内常看到ofo式的疯狂降价，这是双输的打法。我觉得大模型公司不会这么不理智，因为技术还是最重要的，如果是技术不行？就纯粹靠贴钱赔钱去做生意？我们绝对不会跟这样的一个定价来做对标，我们对自己的模型表现是非常自豪的。

他举例，就像你如果有一台特斯拉，它不会因为别的牌子的车比它卖的很便宜它就觉得它要降价，我们就是特斯拉，我们的价钱是合适、值得的。

谈及中美差距，李开复自信的谈到，在一年前，我们（中国）落后OpenAI、Google 7-10年，现在，“我觉得差距也就是在6个月左右”，大大降低了。（定西）

本文系网易科技报道，更多新闻资讯和深度解析，关注我们。