量化方面,有四大天王
幻方九坤明汯灵均

幻方做了 DeepSeek
26 年元旦期间,九坤也出牌了
IQuest-Coder-V1-40B-Instruct
40B 参数,专攻代码生成

 IQuest-Coder
打开网易新闻 查看精彩图片
IQuest-Coder

但...这个模型,带来了一点争议

发布时,SWE Verified 得分是 81.4%,超过 Sonnet 4.5 的 77.2%

但当天,社区就发现评估有问题,经过修正后为 76.2%

模型

先看规格,40B/128K/79.6 GB (BF16)

 模型一览
打开网易新闻 查看精彩图片
模型一览

以及,IQuest-Coder 系列有三个变体:Instruct/Thinking/Loop

别的没啥,不过有个值得说的 Code-Flow 训练

IQuest-Coder 从代码仓库的演化、commit和重构轨迹中学习,把代码当时间序列数据

思路....颇有搞量化的味道

争议

发布当天,GitHub 上就有人开了个 Issue:Reward Hacking of SWE-Bench
大致就是:这玩意儿,数据有问题

 GitHub Issue 截图,社区发现评估漏洞
打开网易新闻 查看精彩图片
GitHub Issue 截图,社区发现评估漏洞

问题出在哪:

测试时没清理 .git/ 目录,导致模型的 Agent 可以通过 git checkout 访问包含修复方案的未来 commit

简单说就是,模型在考试时,能看到答案

SWE-Bench 官方维护者确认了这个问题,大约 24.4%(122/500)的测试用例受影响

IQuest 团队随后重新评估,公开更新了结果:

基准测试

原始得分

修正得分

SWE-Bench Verified

81.4%

76.2%

BigCodeBench

49.9%

49.9%

LiveCodeBench v6

81.1%

81.1%

团队公开了完整的 trajectory 数据

从处理方式看,更像是无意的评估疏漏,不是刻意作弊

修正后的 76.2% 依然不错,对于一个 40B 参数的开源模型来说

九坤

九坤投资,2012 年成立,总部北京
极竞天数为九,厚德载物为坤

资产管理规模 6000-7000 亿人民币,员工 300 多人,是量化私募里规模最大的,两个核心创始人,分别是王琛和姚齐聪,分别来自清北

王琛/CEO
清华数学物理本科、计算机博士,师从姚期智,曾在 Millennium Management 做研究员

姚齐聪/CTO
北大数学本科、金融数学硕士,同样出身 Millennium

两人在华尔街相识,2010-2012 年回国创业,赶上了中国股指期货推出的窗口期

 王琛(左), 姚齐聪(右)
打开网易新闻 查看精彩图片
王琛(左), 姚齐聪(右)

目前,九坤超过 60% 的交易已经由 AI 算法驱动

2025 年正式成立至知创新研究院(IQuest Research),独立于量化投研体系运营,专注大模型、代码智能、医疗 AI、数学、生物等前沿领域

话说回来

幻方做了 DeepSeek,九坤做了 IQuest
量化四大天王里,两家已入场

期待看后续,比如...明汯、灵均,以及更多?

2026 的第一周,风云迭起