打开网易新闻 查看精彩图片

AI圈有人晒出一张对比图。

3倍训练算力砸下去,SWE-Bench多语言任务只提升1%。

Terminal Bench 2.0倒是涨了21%。

但眼尖网友发现,K2.5用的还是非思考模式。

「如果这些基准测试没用,那他们搞这些就太奇怪了。」

这条吐槽瞬间点燃评论区。

大模型Scaling Law失效的焦虑,又冒头了。