自OpenAI在9月中旬悄然发布o1模型后,一系列推理模型陆续开放测试。比如通义千问的QwQ、deepseek的R1、Kimi的K1以及智谱刚刚发布的GLM-Zero的初代版本GLM-Zero-Preview(智谱清言同步上线了智能体“Zero推理模型”)。
正好到了年末,我们萌生了举办一场推理模型“年终考试”的想法。 考试规则 一共有六道考题,分别用高三数学的单选题、多选题和计算题测试模型的数学计算能力,用一道常见的编程题目测试模型的编程能力,用一道逻辑问题和一道海龟汤问题测试模型的推理能力。 分数评定分为三个维度,最终根据推理结果(占比60%)、推理过程(占比25%)、推理时间(占比15%)加权平均。考虑到单次测试存在的不确定性,满分为100分,兜底分数为60分(即使做错了也有60分)。 考生名单:OpenAI o1、通义千问QwQ-32B-preview、deepseek深度思考(R1)、Kimi视觉思考版(K1)和智谱GLM-Zero。
正好到了年末,我们萌生了举办一场推理模型“年终考试”的想法。 考试规则 一共有六道考题,分别用高三数学的单选题、多选题和计算题测试模型的数学计算能力,用一道常见的编程题目测试模型的编程能力,用一道逻辑问题和一道海龟汤问题测试模型的推理能力。 分数评定分为三个维度,最终根据推理结果(占比60%)、推理过程(占比25%)、推理时间(占比15%)加权平均。考虑到单次测试存在的不确定性,满分为100分,兜底分数为60分(即使做错了也有60分)。 考生名单:OpenAI o1、通义千问QwQ-32B-preview、deepseek深度思考(R1)、Kimi视觉思考版(K1)和智谱GLM-Zero。