抵挡AI的最后一个基准！CAIS发布50万美元悬赏令：汇集人类顶尖专家，专攻高难度问题|cais|基准|悬赏令

新智元报道

编辑：LRS

【新智元导读】随着AI模型的水平不断提高，现有的基准测试也被逐一攻破。CAIS和Scale AI共同发起了属于人类的最后一搏，悬赏50万美元，把最高难度、只有最顶尖的人才能回答出的问题收集起来作为基准，是否能挡住AI模型的攻势？

OpenAI最近发布的o1-preview可以说是再次震撼了整个大模型届，在各个主流高难度基准测试中都展现出了惊人的性能，甚至能在博士级别的科学问答环节上超越人类专家。

不过，o1模型的超强实力也带来了一个问题：现有的基准测试已经无法评估模型的能力了，需要新的、更难的基准。

最近，Scale AI与CAIS（人工智能安全中心，Center for AI Safety）计划合作推出Humanity's Last Exam（人类的最终测验），号称将要构建大型语言模型届最难的开源基准；此前CAIS发布的MMLU目前仍然是Huggingface社区中下载次数最多的基准数据集。

两个机构总共筹集了50万来收集「有史以来最难、最广泛的」问题，面向所有人类专家来收集那些尖锐的问题，以将人工智能模型推向极限：前50个被选中的问题，每题将获得5000美元；后面的500个问题，每题将获得500美元。

问题提交：https://agi.safe.ai/submit

不管是数学、天文、火箭工程还是分析哲学，不限领域，不限格式，只要够难，只要AI回答不上来，就能拿奖！

在数据集发布后，问题被选中的提交者也将成为论文的共同作者，被接受的问题数量越多，出现的位置也会越靠前，目前麻省理工学院、加州大学伯克利分校、斯坦福大学等研究人员都已参与到奖金争夺中！

问题提交的截止日期为2024年11月1日。

示例问题

好问题1：存在多少个正整数G2类型的Coxeter-Conway格栅？

问题解读：该问题对于人工智能模型来说足够具有挑战性，并且重点关注研究概念。

好问题2：假设X1，X2，...是在0和1之间独立且均匀随机选择的实数。设，其中k是最小的正整数，使得 Xk

问题解读：尽管没有引用研究级别的概念，但这个问题对于人工智能模型来说已经足够具有挑战性了。对于精确匹配格式来说，答案也并不太复杂。

坏问题1：确定最小的正实数使得存在可微函数和满足下列五个限制。

问题解读：这个问题太简单了。三个模型中，有两个都能答对。

坏问题2：我正在研究病毒颗粒（尤其是冠状病毒）中基于系链蛋白的相互作用。我想进行实验来评估各种 ORF3 和 Spike 蛋白是否能与系链蛋白更好地相互作用，从而增强受感染细胞中的病毒释放。我直接使用改良的 SARS-CoV-2 毒株代替 HIVΔVpu 作为报告病毒，并使用 HeLa 细胞作为系链蛋白阳性毒株。感染一些测试 HeLa 细胞，孵育、固定并通过透射电子显微镜 (TEM) 进行分析后，拍摄了结果图像。下列哪个选项是正确的？