2024年6月,主流大语言模型连"strawberry"里有几个r都数不清。一年后,它们在国际数学奥林匹克竞赛上夺金。这个速度让从业者既兴奋又不安。
技术迭代曲线正在变陡。2023年业界还在争论Scaling Law是否见顶,2024年推理能力突然涌现,2025年数学证明已成为基准测试的标配项目。能力跃迁的间隔从年缩短到月。
打开网易新闻 查看精彩图片
但竞赛金牌不等于可靠。奥数题有标准答案,真实世界的决策没有。模型在形式化推理上突飞猛进,却在简单事实核查上反复翻车——这种割裂提示了另一条进化路径:不是更大,而是更准。
打开网易新闻 查看精彩图片
热门跟贴