周三晚,一个评测结果在运筹学圈炸了锅。测试人员把优化建模题目分别丢给推理大模型和普通大模型,等来的答案让人大跌眼镜:那些擅长解数学题的推理型选手,这回反而被普通模型甩在了身后。
这个“揭短”的评测工具叫ORGEval,一篇ICML workshop论文。它不直接看模型生成的模型能不能解出最优值——因为传统做法里,求解器评价存在三个坑:偶然正确、不可行问题、速度瓶颈。ORGEval换了个思路,用图论来给大模型的建模能力“验明正身”。
打开网易新闻 查看精彩图片
核心方法是这样的:把模型输出的优化模型和标准答案都转化成二分图,然后用WL-test(Weisfeiler-Lehman同构测试)和SD条件比较图结构。简单说,不看模型算出来的数字对不对,而是看它“构建问题”的结构是否与标准一致。这就绕过了求解器偶然蒙对、或模型生成的约束自相矛盾导致不可行的干扰。
这个设计点破了之前的盲区:大模型做运筹学建模,强的未必是“推理”,而是对问题结构的理解。论文发现,非推理模型在这个任务上整体表现更稳,推理模型反而因过度发散、产生不合逻辑的约束,在图结构比对中漏洞百出。
结果虽然有点反直觉,但逻辑很直白。运筹建模需要先把现实问题抽象成变量与约束,这一步更多依赖对关系的把握,而非逐步推演。推理模型习惯给出长链条答案,在需要“快准狠”的结构生成环节反而容易跑偏。
热门跟贴