近日,美国的艾伦人工智能研究所(Ai2开发了一款名为SciArena的基础模型基准测试平台,采用类似Chatbot Arena的众包、头对头评估方法,主要针对科学文献任务。

该平台现已公开发布:https://sciarena.allen.ai/

截至6月30日,该团队对全球23个大型语言模型(LLM)进行了排名,邀请了102名研究人员进行了超过13,000次投票,涉及自然科学、医疗保健、工程学以及人文社科的四个类别。

OpenAI o3夺冠 五家各有所长

曾打造出ChatGPT的OpenAI公司,凭借最新的o3模型实现了断层领先。该模型对引用的科学论文进行了更详细的阐述,并且其输出在工程学科中更具技术性。

其余模型的性能因学科而异,被誉为编程之王的Claude-4-Opus在医疗保健方面表现出色,而DeepSeek-R1-0528在自然科学方面表现良好。

值得注意的是,即使是实验中表现最好的模型o3在预测人类偏好方面的准确率也只有65.1%。

与斯坦福的LLM排行榜AlpacaEval和GPT系列对话数据集WildChat 等通用基准相比有明显差距,后者的成对评估协议的准确率超过 70%。

Ai2的Arman Cohan表示:用户对o3的偏好可能源于该模型倾向于在引用的文献中提供大量细节,并产生技术上细致入微的回答。

但相关报道也提醒,LLM可能会生成与引用论文冲突的文本,也会误解术语,并且可能无法准确回答问题,阅读 LLM 生成的研究论文摘要并不能替代阅读论文。