超百位科学家投票，23个大语言模型排名！OpenAI o3夺魁，DeepSeek入围！

智药局

2025-07-11 19:36 ·四川 ·优质财经领域创作者

近日，美国的艾伦人工智能研究所（Ai2）开发了一款名为SciArena的基础模型基准测试平台，采用类似Chatbot Arena的众包、头对头评估方法，主要针对科学文献任务。

该平台现已公开发布：https://sciarena.allen.ai/

截至6月30日，该团队对全球23个大型语言模型（LLM）进行了排名，邀请了102名研究人员进行了超过13,000次投票，涉及自然科学、医疗保健、工程学以及人文社科的四个类别。

OpenAI o3夺冠五家各有所长

曾打造出ChatGPT的OpenAI公司，凭借最新的o3模型实现了断层领先。该模型对引用的科学论文进行了更详细的阐述，并且其输出在工程学科中更具技术性。

其余模型的性能因学科而异，被誉为编程之王的Claude-4-Opus在医疗保健方面表现出色，而DeepSeek-R1-0528在自然科学方面表现良好。

值得注意的是，即使是实验中表现最好的模型o3在预测人类偏好方面的准确率也只有65.1%。

与斯坦福的LLM排行榜AlpacaEval和GPT系列对话数据集WildChat 等通用基准相比有明显差距，后者的成对评估协议的准确率超过 70%。

Ai2的Arman Cohan表示：用户对o3的偏好可能源于该模型倾向于在引用的文献中提供大量细节，并产生技术上细致入微的回答。

但相关报道也提醒，LLM可能会生成与引用论文冲突的文本，也会误解术语，并且可能无法准确回答问题，阅读 LLM 生成的研究论文摘要并不能替代阅读论文。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴