上周,一个名为“im-also-a-good-gpt2-chatbot”的神秘模型突然现身大模型竞技场Chatbot Arena,排名直接超过GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b等各家国际大厂的当家基座模型。随后OpenAI揭开“im-also-a-good-gpt2-chatbot”神秘面纱——正是GPT-4o的测试版本,OpenAI CEO Sam Altman也在Gpt-4o发布后转帖引用 LMSYS arena 盲测擂台的测试结果。

资料显示,由开放研究组织 LMSYS Org (Large Model Systems Organization)发布的Chatbot Arena已经成为OpenAI、Anthropic、Google、Meta等国际大厂“龙争虎斗”的当红擂台。

时隔一周,在最新更新的排名中,这次排名飞速上涨的模型是由中国大模型公司零一万物提交的“Yi-Large” 千亿参数闭源大模型。

据悉,在 LMSYS 盲测竞技场最新排名中,零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第7,中国大模型中第一,已经超过Llama-3-70B、Claude 3 Sonnet;其中文分榜更是与GPT4o 并列世界第一。

值得一提的是,Yi-Large的中文语言分榜上拔得头筹,与 OpenAI 官宣才一周的地表最强 GPT4o 并列第一,Qwen-Max 和 GLM-4在中文榜上也都表现不凡。

打开网易新闻 查看精彩图片

与此同时,在编程能力(Coding)排行榜上,Yi-Large 的Elo分数超过Anthropic 当家旗舰模型 Claude 3 Opus,仅低于GPT-4o,与GPT-4-Turbo、GPT-4并列第二。长提问(Longer Query)榜单上,Yi-Large同样位列全球第二。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在今天的访谈中,零一万物CEO 李开复向网易科技等媒体表示,LMSYS提供了一个第三方的、公正的平台,其他竞争对手也都非常认可。而零一万物的团队规模、参数规模、GPU算力都比排名更靠前的模型“小”。

关于小模型相关规划,李开复谈到,我们的计划是从最小到最大的模型都能够做到中国最好,在6B、9B、34B等等,未来可能有更小的模型发布,它们都是同样尺寸达到业界最佳,不敢说第一,但是总体来说是第一梯队或者是最好的一两名,而且在很多方面,在代码方面、中文方面、英文方面表现都非常好。

谈及国产大模型的价格战,李开复回应,国内常看到ofo式的疯狂降价,这是双输的打法。我觉得大模型公司不会这么不理智,因为技术还是最重要的,如果是技术不行?就纯粹靠贴钱赔钱去做生意?我们绝对不会跟这样的一个定价来做对标,我们对自己的模型表现是非常自豪的。

他举例,就像你如果有一台特斯拉,它不会因为别的牌子的车比它卖的很便宜它就觉得它要降价,我们就是特斯拉,我们的价钱是合适、值得的。

谈及中美差距,李开复自信的谈到,在一年前,我们(中国)落后OpenAI、Google 7-10年,现在,“我觉得差距也就是在6个月左右”,大大降低了。(定西)

本文系网易科技报道,更多新闻资讯和深度解析,关注我们。