科学发现往往藏在专业知识的缝隙里,需要把看似无关的事实串成线。研究者得同时做深钻和广联——这种双重能力,正是AI最难复制的部分。

现在,两支队伍正在挑战这个难题。非营利机构Future House开发的Robin,和Google DeepMind的Co-Scientist,刚刚在Nature上披露了各自的多智能体系统。它们不打算取代科学家,而是想当科研搭档。

Co-Scientist的设计很有意思:它的智能体分工模拟抽象认知任务。"反思智能体"扮演苛刻的同行评审,给假设挑刺;"排序智能体"则用多轮辩论赛的形式,让几个大语言模型互相驳斥,直到筛出更靠谱的假说。这套机制试图复刻实验室里的思想碰撞。

Robin的路径更务实。它聚焦药物重定位——给已知药物找新适应症。一个智能体专挑实验该测什么,另一个啃复杂的生物医学数据。Future House选了垂直场景切入,而非搭建通用框架。

两个系统的共同点是"多智能体"架构:多个专才智能体加一个统筹的"主管"智能体。这跟Sakana AI等机构的"全自动科学家"路线不同,后者试图包办从选题到写代码的整个流程,目前主要在计算机科学领域试水。

但问题已经暴露。去年10月斯坦福的Agents4Science会议上,AI生成的论文横跨机械工程、蛋白质设计,甚至有个叫BadScientist的系统专门生产"看起来对、实则错"的研究。更早的观察也证实:AI辅助下,论文和审稿的数量涨了,质量却下滑——伪造引用、误导性图片等问题频现。

语言模型的天花板在这里显形。科学文献的"词汇"只是知识的表层,真正的理解需要触及符号背后的实体关系。两个新系统都试图突破纯文本,但Nature的评论指出,它们仍受困于一个根本限制:当前AI缺乏对物理世界的 grounded 认知,也缺乏真正的因果推理能力。

这或许解释了为什么"辅助"比"替代"更现实。Robin和Co-Scientist都强调人机协作,把AI定位为加速假设生成和实验设计的工具,而非终审法官。科学家仍然要把关——尤其是在需要判断"这个发现到底意味着什么"的时候。