大模型搞运筹，推理型栽了跟头

闪存猎手

2026-06-23 02:45 ·北京

周三晚，一个评测结果在运筹学圈炸了锅。测试人员把优化建模题目分别丢给推理大模型和普通大模型，等来的答案让人大跌眼镜：那些擅长解数学题的推理型选手，这回反而被普通模型甩在了身后。

这个“揭短”的评测工具叫ORGEval，一篇ICML workshop论文。它不直接看模型生成的模型能不能解出最优值——因为传统做法里，求解器评价存在三个坑：偶然正确、不可行问题、速度瓶颈。ORGEval换了个思路，用图论来给大模型的建模能力“验明正身”。

核心方法是这样的：把模型输出的优化模型和标准答案都转化成二分图，然后用WL-test（Weisfeiler-Lehman同构测试）和SD条件比较图结构。简单说，不看模型算出来的数字对不对，而是看它“构建问题”的结构是否与标准一致。这就绕过了求解器偶然蒙对、或模型生成的约束自相矛盾导致不可行的干扰。

这个设计点破了之前的盲区：大模型做运筹学建模，强的未必是“推理”，而是对问题结构的理解。论文发现，非推理模型在这个任务上整体表现更稳，推理模型反而因过度发散、产生不合逻辑的约束，在图结构比对中漏洞百出。

结果虽然有点反直觉，但逻辑很直白。运筹建模需要先把现实问题抽象成变量与约束，这一步更多依赖对关系的把握，而非逐步推演。推理模型习惯给出长链条答案，在需要“快准狠”的结构生成环节反而容易跑偏。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴