Nature BME | “AI数据科学家”BioMedAgent实现生物医学数据自主分析|数据科学家|智能体|生物医学数据|算法

2026年3月30日，一项突破性的生物医学数据AI智能体研究成果正式登上了国际顶级学术期刊《Nature Biomedical Engineering》（自然·生物医学工程）。该研究以 “Empowering AI data scientists using a multi-agent LLM framework with self-evolving capabilities for autonomous, tool-aware biomedical data analyses”为题，塑造了全新“AI数据科学家”—BioMedAgent。该研究创新性地利用多智能体（Multi-agent）大语言模型框架，赋予了AI自主化、工具感知以及自我进化的能力，标志着生物医学数据分析正式迈入高度自动化的“智能体时代”。

该研究是由中国科学院计算技术研究所、温州医科大学附属眼视光医院、中国科学院生物物理研究所、广州国家实验室、四川大学华西医院、华中科技大学同济医学院附属协和医院等多家顶尖科研与临床机构的团队共同攻关完成。

研发背景：海量生物数据呼唤“数字大脑”

随着生物医学领域的飞速发展，多组学、单细胞测序以及各类临床数据的规模呈指数级增长。然而，面对这些海量、高维度且极具专业性的数据，传统的分析方式往往需要耗费大量生信专家的精力进行代码编写、工具调试和流程梳理。数据分析的门槛与效率，成为了限制医学转化与新发现的瓶颈。

为了打破这一壁垒，研究团队基于前沿的Agent（智能体）技术，成功构建了能够像人类数据科学家一样思考和工作的AI大语言模型框架-BioMedAgent。

核心能力：AI实现科学数据自主探索

BioMedAgent不再局限于零散的指令执行与辅助编程，而是一个具备完整“思考-规划-执行-反思”链路的智能中枢。它的核心突破在于以下三大维度：

(1)多智能体协同 (Multi-agent Framework)

BioMedAgent框架内构建了多个具有不同“分工”的智能体。它们分别扮演着规划者（Planner）、程序员（Coder）、代码审查员（Reviewer）等角色。面对复杂的生物医学分析任务，这些智能体能够自主拆解任务、分配工作并进行多轮交互协作，极大地提升了分析的准确性和逻辑的严密性。

(2)深度工具感知与自主调用 (Autonomous & Tool-aware)

区别于传统LLM，BioMedAgent拥有强大的“工具库”感知能力。它能够自主识别并熟练调用各类专业的生物信息学软件、数据库API和分析包（如Scanpy, Seurat等）。无需人类干预，它就能根据任务需求匹配最合适的分析工具，并打通端到端的数据处理工作流。

(3)突破性的自我学习进化能力 (Self-evolving Capabilities)

这是BioMedAgent最引人瞩目的特性。在不断的执行任务和纠错过程中，该框架能够积累经验，并将成功的分析策略和代码模式内化。这意味着它处理的生物医学数据越多，其解决复杂未知问题的能力就越强，真正实现了从“被动执行”到“主动进化”的跨越。

卓越性能：多层级基准测试全面领先，定义AI科学家新标准

(1)全能基准测试上胜率突出：在全新构建的BioMed-AQA基准测试中（包含组学、精准医疗、机器学习、统计分析和数据可视化5大类共327个任务），BioMedAgent取得了高达77%的整体平均成功率。具体而言，其在组学分析任务中成功率高达94%，机器学习任务达到90%，精准医疗任务达到78%。

(2)实力碾压主流大模型：面对相同的生物医学分析任务，BioMedAgent的表现全面超越了其他主流LLM智能体。GPT Assistants和GPT Function Call的成功率分别仅为39%和33%，而BioMedAgent甚至击败了使用更高版本大模型的ChatGPT-4o（成功率46%）。

(3)强大的外部泛化能力：在外部独立基准测试BixBench中，BioMedAgent在无拒答的多选题测试中取得了63%的准确率，显著超越了基线智能体55%的表现，展现了极强的泛化能力。

(4)核心算法驱动性能跃升：本地工具使用（LTU）的引入，使组学、精准医疗和机器学习任务的平均成功率突破90%。此外，交互式探索（IE）算法让平均成功率从28%近乎翻倍至52% 。而通过记忆检索（MR）算法的三轮自我学习，其成功率更是从52%进一步跃升至最终的77%。

科研实战：多个前沿场景应用实践

(1)指令驱动跨组学分析：仅需三句自然语言指令，BioMedAgent即可全自动完成包含几十个样本的RNA-seq和单细胞RNA-seq分析全流程。它精准识别出1,831个差异基因，并锁定了3个细胞特异性的关键靶点，结果与权威文献高度一致。

(2)零代码复现顶刊学习模型：在无人工代码干预的情况下，系统自主打通了用于预测癌症患者血栓风险的端到端机器学习工作流，完美复现了一项来源《Nature Medicine》研究的建模过程与核心结论，使得临床医生能更简易的实现数据建模。

(3)重构病理图像深度学习模型：针对低分辨率病理图像，BioMedAgent自主集成了分辨率增强算法，自动规划并优化已有的细胞分割工作流，所重构的新算法显著提升了多类细胞的分割精度，将性能表现大幅向理论上限推进了近30%。

应用前景：解放科研生产力，加速医学新发现

BioMedAgent让缺乏编程背景的临床医生能够真正掌控数据分析的主动权。通过支持本地化部署和开源模型调用，它在确保医疗数据绝对安全的同时，将繁琐的代码工作转化为简单的对话，将极大地降低生物医学数据分析的技术门槛。临床医生和基础科研工作者只需用自然语言提出科学问题，这位“AI数据科学家”即可自主完成从数据清洗、建模分析到可视化结果输出的全流程。随着系统在实际应用中不断积累经验，它将帮助各大医学实验室打造出越用越聪明的专属AI科研助手，将海量复杂的的组学、文本、图像数据，更加高效转化为医学新发现。

快点亮"在看”吧！