AI科学家进化了，但碰上了天花板|ai科学家|假说|天花板|智能体|李彦宏

科学发现往往藏在专业知识的缝隙里，需要把看似无关的事实串成线。研究者得同时做深钻和广联——这种双重能力，正是AI最难复制的部分。

现在，两支队伍正在挑战这个难题。非营利机构Future House开发的Robin，和Google DeepMind的Co-Scientist，刚刚在Nature上披露了各自的多智能体系统。它们不打算取代科学家，而是想当科研搭档。

Co-Scientist的设计很有意思：它的智能体分工模拟抽象认知任务。"反思智能体"扮演苛刻的同行评审，给假设挑刺；"排序智能体"则用多轮辩论赛的形式，让几个大语言模型互相驳斥，直到筛出更靠谱的假说。这套机制试图复刻实验室里的思想碰撞。

Robin的路径更务实。它聚焦药物重定位——给已知药物找新适应症。一个智能体专挑实验该测什么，另一个啃复杂的生物医学数据。Future House选了垂直场景切入，而非搭建通用框架。

两个系统的共同点是"多智能体"架构：多个专才智能体加一个统筹的"主管"智能体。这跟Sakana AI等机构的"全自动科学家"路线不同，后者试图包办从选题到写代码的整个流程，目前主要在计算机科学领域试水。

但问题已经暴露。去年10月斯坦福的Agents4Science会议上，AI生成的论文横跨机械工程、蛋白质设计，甚至有个叫BadScientist的系统专门生产"看起来对、实则错"的研究。更早的观察也证实：AI辅助下，论文和审稿的数量涨了，质量却下滑——伪造引用、误导性图片等问题频现。

语言模型的天花板在这里显形。科学文献的"词汇"只是知识的表层，真正的理解需要触及符号背后的实体关系。两个新系统都试图突破纯文本，但Nature的评论指出，它们仍受困于一个根本限制：当前AI缺乏对物理世界的 grounded 认知，也缺乏真正的因果推理能力。

这或许解释了为什么"辅助"比"替代"更现实。Robin和Co-Scientist都强调人机协作，把AI定位为加速假设生成和实验设计的工具，而非终审法官。科学家仍然要把关——尤其是在需要判断"这个发现到底意味着什么"的时候。

AI科学家进化了，但碰上了天花板