OpenAI 开源了一个名为 SimpleQA 的基准测试,用于衡量语言模型在回答简短、追求事实的问题方面的能力。强调回答的准确性,旨在测试模型是否 “知道自己知道什么”。地址: 网页链接