别只拿大模型润色论文了！看这8位顶尖神经科学家如何用AI开挂|人工智能|生物学|神经科学家|脑科学

在过去几年里，大语言模型（large language models，LLMs）在规模与能力上都实现了显著提升。它们在复杂推理方面更加出色，能够理解并执行科学研究中的指令提示，如今还可以处理文本、图像和代码等多种信息形式。研究人员迅速将这些能力融入科研流程之中，把大语言模型纳入日常工作，用于文献分析、研究假设生成、数据库查询、复杂数据集处理以及新结果的探索。接下来，八位神经科学家将结合各自实验室的实践，介绍他们如何具体运用这些工具。

为便于阅读，以下内容在篇幅和表述清晰度上经过了适度编辑。

雷扎·阿巴西-阿斯尔

Reza Abbasi-Asl

美国加州大学旧金山分校神经学、生物工程与治疗科学副教授

阿巴西-阿斯尔的实验室致力于探索可解释机器学习（interpretable machine learning）在理解大脑功能及相关疾病中的作用。他主持了多项将人工智能应用于神经解剖学与健康技术的研究，其中包括一项发表于2025年的重要成果：利用基于Transformer的模型，构建了迄今分辨率最高的小鼠大脑结构图谱之一。

在这一过程中，模型几乎不需要人工干预，而是以自下而上的方式，自主学习神经解剖的组织规律。

我们实验室正在使用支撑大语言模型的核心技术，来处理一种完全不同的“语言”。这种语言并非文本，而是由空间基因组学（spatial genomics）实验所揭示的细胞组织结构。基于这一思路，我们提出了一个问题：人工智能模型是否也能像语言模型理解句子中的词语那样，根据周围细胞构成的上下文来理解单个细胞？答案是肯定的。

我们实验室正在使用支撑大语言模型的核心技术，来处理一种完全不同的“语言”。这种语言并非文本，而是由空间基因组学（spatial genomics）实验所揭示的细胞组织结构。基于这一思路，我们提出了一个问题：人工智能模型是否也能像语言模型理解句子中的词语那样，根据周围细胞构成的上下文来理解单个细胞？答案是肯定的。

CellTransformer采用自监督学习（self-supervised learning）的方式，在Allen脑科学研究所合作团队采集的大规模空间基因组学数据上进行训练。模型在分析一个细胞邻域时，会刻意隐藏其中某个细胞的分子身份，仅依据周围细胞的信息进行推断。通过数百万次重复这一过程，它逐渐掌握了不同细胞在空间中如何组合与排列的基本规律。

这一方法与以往主要用于界定大脑中不同细胞类型的脑图谱研究有所不同。CellTransformer 关注的不是细胞类型本身，而是不同类型的细胞如何进一步组合成更大尺度、具有功能意义的脑区结构。在这一过程中，模型几乎完全依赖数据进行学习，无需人工标注，最终生成了一张超高分辨率的大脑结构图谱。令人高兴的是，该模型不仅以极高的准确度复现了已知的大尺度脑区，还识别出了大量此前尚未被系统记录的、更为精细的亚区结构。

▷脑图谱绘制：图中展示了 CellTransformer 在小鼠大脑中识别出的约 1300 个脑区或亚区。每张切片旁均附有 Allen 脑科学研究所提供的对应参考图谱，便于对照。加州大学旧金山分校 Abbasi 实验室

这真的让人非常振奋。因为在过去几十年里，临床前研究所依赖的大脑图谱，本质上仍是手工绘制的，难免受到不同脑区历史研究兴趣的影响。

相比之下，人工智能生成的图谱在空间细节上更为精细，也更加客观。研究者可以将疾病状态或药物作用精准对应到以细胞为单位界定的特定脑区，而且当新的数据出现时，该方法也可以迅速应用。

更令人期待的是，CellTransformer并不局限于神经科学领域。研究团队将其设计为一种不依赖特定组织类型的通用工具。只要某个器官系统拥有大规模空间转录组学（spatial transcriptomics）数据，就可以直接应用这一模型。

这意味着，它不仅提供了一种新的大脑图谱构建方式，也为几乎所有生物学领域建立高分辨率细胞图谱提供了基础性方案。从长远来看，该框架有望发展为一个可扩展的平台，推动跨物种、跨疾病状态的组织结构研究，逐步加深我们对组织结构的、真正基于数据的理解。

卡特琳·弗兰克

Katrin Franke

斯坦福大学医学院高级研究科学家

德国蒂宾根大学眼科研究所研究组负责人

她的研究融合系统神经科学、计算建模与机器学习方法，致力于揭示视网膜与大脑皮层中的神经回路如何处理视觉信息。

最近，我们开始将大语言模型作为“科学家”来使用，让它们承担一些原本需要由人类完成的分析工作，并且能够在更大规模上开展这些任务。

大语言模型极大地改变了我的工作方式，如今已成为我日常科研中不可或缺的一部分。作为一名非英语母语者，无论是在邮件中拿捏语气，还是在撰写论文评审时精确措辞，我过去常常难以把想法表达得足够清晰。如今，我会借助大语言模型来润色初稿、检查语法并调整语气，这让学术写作对像我这样的非母语研究者来说变得更加轻松，也更有把握。

除了写作，我也经常使用大语言模型处理编程任务，尤其是在生成数据可视化代码片段或进行调试时。这些工具的交互特性让我在思考问题时更加高效，比独自琢磨要顺畅得多。无论是构思分析思路，还是梳理论文结构，我都会与模型反复交流，在对话中不断完善想法。

我的研究高度依赖团队协作，日常需要进行大量会议。我们会将会议内容转录成文字，再交由大语言模型整理，生成结构清晰、包含明确行动要点的会议摘要，这为团队节省了大量时间。近期，我们还开始借助视觉语言模型（vision-language models，VLMs）等更先进的模型进行科学研究。这类技术让研究者能够完成过去主要依赖人工判断的分析任务，并在规模和速度上达到以往难以实现的水平。

以我们的研究为例，我们关注视觉皮层中的神经元如何对不同图像作出反应。如今，我们可以借助大语言模型，自动概括这些图像在内容上的共同特征，如果完全依靠人工完成，这一过程往往需要耗费研究者大量时间。

尽管我在日常科研中频繁使用这些工具，但我始终对它们的输出保持审慎态度。只要持续保持批判性视角，并清楚认识到诸如“幻觉”等局限性，我相信包括大语言模型在内的人工智能工具，依然具有深刻改变我们工作方式的巨大潜力。（顺便一提，这段文字本身也借助了大语言模型进行润色。）

布拉德利·洛夫

Bradley Love

洛斯阿拉莫斯国家实验室高级研究科学家

早期工作中，他构建了关于人类学习与决策机制的计算模型，并将这些模型应用于脑成像数据的分析。近年来，他的重点转向改进深度学习模型，使其在行为表现和大脑反应层面更加贴近人类。目前，他致力于构建综合性科研系统，其中包含大语言模型等关键组件，以推动科学发现的提速。

BrainGPT.org项目探讨了一个关键问题：如果将大语言模型训练于神经科学文献，它们在预测各个子领域的实验结果时，是否能够超越人类专家[1]。为此，来自11个国家的国际团队开发了评测基准BrainBench。该基准基于《神经科学杂志》的论文摘要，要求测试对象区分真实研究结果与经过细微修改的结果。参与测试的既包括人类专家，也包括大语言模型。

结果显示，在预测实验结果这一任务中，人机混合团队的准确率高于单独的人类或人工智能。

最关键的发现是，大语言模型在预测实验结果方面表现出超越人类专家的能力。同时，它们的置信度具有良好的校准性。也就是说，模型越有把握时，预测结果通常也越准确。这一研究结果表明，大语言模型可能从根本上改变神经科学研究的开展方式。

研究由此带来了两点重要启示。第一，由于大语言模型和人类专家都表现出较好的置信度校准能力，将两者结合组成的人机团队，其预测准确率高于任何一方单独工作。第二，借助大语言模型在信息整合和模式识别方面的独特优势，这类系统有助于加快科学发现的进程。

一个典型案例来自哈佛医学院和麻省总医院的迈克尔·施瓦茨希尔德（Michael Schwarzschild）。他曾发现一种潜在的帕金森病生物标志物，但后来回顾文献时发现，上世纪80至90年代已有研究提出过类似线索，只是当时未受到足够重视。在测试中，BrainGPT 所使用的大语言模型成功将这一创新性结果判断为最有可能成立的发现。这显示出模型能够发现被忽视的研究线索，并将分散的科学文献重新关联起来。

目前，研究团队正与AE Studio合作开发开源工具，帮助不同学科的科学家更好地利用这些预测能力。这些工具的目标，是通过预测研究结果、评估既有研究结果的可重复性，来提升科研效率。

研究团队也邀请科学家、人工智能研究者以及软件开发者注册获取项目进展，或参与到相关工作中[4]。同时，团队正在寻求用于托管这些工具的资源，以确保其能够免费向学术社区开放。对此感兴趣的读者，可以联系项目负责人罗晓亮（Xiaoliang Luo，EmpiriQaL.ai）以及我本人[5-6]。这一项目标志着人工智能深入参与科学研究的重要进展，也为不同学科探索新的发现与验证路径提供了新的工具支持。

杰里米·马格兰德

Jeremy Magland

Flatiron 研究所计算数学中心高级数据科学家

他的研究主要围绕构建计算工具与科研平台，提升研究者对复杂科学数据的获取与使用能力，重点关注数据可视化、交互式分析以及研究过程的可重复性。他开发的开源软件被广泛应用于多个科学领域，在神经生理学研究和神经元放电分选领域尤为常见。

这些数据具有很高的再利用价值，但对于未参与原始采集的研究者来说，理解其结构与内容往往需要投入大量时间。

我们正在利用大语言模型，帮助神经科学研究者更高效地复用DANDI神经生理数据分布式档案库（Distributed Archives for Neurophysiology Data）中的复杂数据集。DANDI收录了数百个神经生理数据集，涵盖通过电生理、钙成像等技术记录的大脑活动数据，同时包含行为数据与刺激信息。这些数据具有很高的再利用价值，但对于未参与原始采集的研究者来说，理解其结构与内容往往需要投入大量时间。

为此，我们团队开发了一套基于大语言模型的系统，来承担数据初步探索中最耗时的工作。首先，一个人工智能代理会自动对数据集进行探索，自主从远程文件中加载数据片段，运行探索脚本，并生成和检查可视化结果，以理解数据的结构与特征。随后，第二个模型会基于前一步收集的信息，自动生成一个Python笔记本，对数据集进行系统介绍，并演示如何加载、绘图和开展初步分析。在经过人工核查以确保准确性后，该笔记本将与对应数据集一同发布在线。

这一流程的目标，是帮助研究者在几分钟内完成从“这个数据很有意思”到“我可以开始使用它”的转变。这也是推动公共神经科学数据更加易于理解和复用的重要一步。

当然，在使用大语言模型时，必须警惕它们可能生成误导性信息。我启动这一项目的另一个目的，是检验模型是否会落入常见的统计陷阱，从而得出虚假的研究结论[7]。随着模型能力不断提升，这类问题有望逐步减少。

妮娜·米奥兰

Nina Miolane

加州大学圣塔芭芭拉分校电气与计算机工程系助理教授、几何智能实验室主任

她的实验室研究“智能的几何结构”，即用数学原理刻画大脑与机器如何组织、转换并适应信息。在这些原理的基础上，团队致力于开发新一代人工智能系统。即使在数据规模较小、噪声较大或结构高度复杂的情况下，这些系统仍能实现显著提升的准确性或计算效率。

我们发现，自动化检索与文献整理显著提升了对模型结果的理解深度，也促进了团队内部的讨论，并为后续实验室验证阶段的蛋白筛选提供了清晰方向。

额颞叶变性（frontotemporal degeneration，FTD）是一种影响大脑额叶和颞叶区域的痴呆类型，会损害语言、决策以及运动功能。它是60岁以下人群中最常见的痴呆形式之一，但其分子层面的致病机制至今仍未被充分理解。

为填补这一空白，我们开展了一项研究项目，由博士生路易莎·科内利斯（Louisa Cornelis）牵头，并与加州大学圣塔芭芭拉分校的几何智能实验室（Geometric Intelligence Lab）以及加州大学旧金山分校的记忆与衰老中心共同开展[8]。参与该项目的研究人员还包括吉列尔莫·贝尔纳尔德斯·吉尔（Guillermo Bernárdez Gil）、罗文·萨洛纳（Rowan Saloner）、凯特琳·卡萨莱托（Kaitlin Casaletto）以及我本人[9-11]。研究团队利用可解释的图神经网络（Graph Neural Networks，GNNs），对来自FTD患者的大规模蛋白质组学数据进行了系统分析。

我们的模型通过识别疾病早期的分子信号来预测未来的认知功能下降。在某些情况下，甚至能够在临床症状出现之前给出预警，从而提前评估疾病可能对患者生活和功能状态产生的影响。随后，我们结合由大语言模型增强的可解释性分析方法，筛选出在模型预测中发挥关键作用的蛋白质，以揭示可能支撑FTD发生与进展的分子模式。

在具体操作层面，我们将大语言模型整合进整个可解释性分析流程中。当模型筛选出最具预测力的前10个关键蛋白后，一个定制化的AI系统会自动检索PubMed数据库，并对相关文献进行梳理和总结，帮助我们回答几个核心问题：这些蛋白已知的生物学功能是什么？其中哪些曾在阿尔茨海默病或帕金森病等神经退行性疾病研究中被报道？是否出现在动物实验中？又有哪些可能是此前尚未被关注的全新线索？

初步测试已带来了多项有价值的发现。例如，即便此前没有与FTD的直接研究关联，这套系统仍然能够发现，图神经网络（Graph Neural Networks，GNNs）识别出的关键蛋白与其他神经退行性疾病之间存在潜在联系。团队成员在此过程中逐一核查所有引用文献。我们发现，自动化检索与文献整理显著提升了对模型结果的理解深度，也促进了团队内部的讨论，并为后续实验室验证阶段的蛋白筛选提供了清晰方向。

当然，这种方式也有其局限性。LLM的幻觉问题仍然存在，可能引用不存在的文章，或未经同行审阅的研究。为尽量降低这类风险，我们将模型的作用严格限定在对自动化PubMed检索结果进行整理和摘要上，所有输出内容都会由团队成员逐一人工审核。即便如此，AI仍可能误读部分研究结论，或遗漏关键文献。不过，在生成研究假设的阶段，这一工具依然非常有价值。未来，我们计划通过专家评审，对大量查询结果进行系统分析，统计正确与错误输出的比例，以更客观地评估其整体准确性。

瑞秋·帕金森

Rachel Parkinson

伦敦玛丽女王大学讲师

牛津大学施密特“科学中的人工智能”学者

她的研究融合了神经生理学、行为学与计算建模，旨在理解环境压力因素如何影响昆虫的感觉系统以及传粉昆虫的整体健康状况。其致力于开发以人工智能为驱动的工具，用于加速生物科学研究，包括用于高通量行为毒理学研究的实验设备，以及支持系统性综述的大语言模型分析流程。

我们将MetaBeeAI设计为一种“专家参与式”的分析流程，使研究者能够在每个阶段对模型输出进行核查。

在生物学和神经科学领域，科研文献数量持续增长，给研究者带来了巨大的整理与消化压力。我们正利用大语言模型来应对这一挑战。面对不断涌现的研究成果，个体研究者往往难以及时全面掌握相关进展。在这一背景下，我们开展了MetaBeeAI项目，专注研究农药等环境压力因素如何影响昆虫的大脑与行为[12]。MetaBeeAI利用大语言模型系统性阅读数千篇论文，筛选关键发现，并提取结构化信息，例如实验设计、受影响的脑区以及行为结果，使这些数据能够直接用于元分析或计算模型。

需要强调的是，这并非一个“黑箱”系统。MetaBeeAI采用“专家参与式”（expert-in-the-loop）的流程设计。研究者可以在各个阶段核查模型输出、纠正错误，并提供反馈，以持续优化大语言模型的提示策略与微调过程。这一机制使整个流程更加透明、可审计，并能够根据不同领域的研究需求进行调整。与此同时，我们正在构建一个由领域专家整理的基准数据集，用于评估大语言模型在真实生物学文献中的表现，并据此改进模型对科学文本的理解能力。

我们的最终目标，是将这一工具推广至神经科学与生物学领域的研究者群体，帮助更多研究者更高效地提取关键发现、整合证据，并加速科研进程。

马丁·施林普夫

Martin Schrimpf

瑞士联邦理工学院洛桑分校Neuro-X神经科学研究所助理教授

他致力于以计算视角理解大脑的工作机制，其研究横跨机器学习、神经科学与认知科学多个领域，重点在于构建能够同时对齐神经活动与行为表现的计算模型。

我们最近发现，GPT系列模型的内部表征，与人类语言网络中的神经表征具有出人意料的相似性。

除了在写作和编程支持等常见场景中应用大语言模型，我们还将其作为预测大脑信息加工过程的计算模型。我们最近发现，GPT系列模型的内部表征，与人类语言网络中的神经表征具有出人意料的相似性。该模型家族也是ChatGPT等工具所基于的核心架构。当我们将同一段文本同时呈现给人类受试者和模型时，可以观察到两种系统之间高度一致的反应模式。模型的内部激活状态不仅能够预测大脑中的神经活动模式，还能够对应阅读时长等行为指标。

这种一致性的强度以及能让我们利用大语言模型筛选句子，从而可靠地增强或抑制人类语言系统中特定脑区的活动。这一发现令人振奋，因为它为通过感知层面的输入而非侵入式手段调节大脑活动，提供了新的可能。

受到这些发现的启发，我们也开始将大语言模型本身视为一种值得研究的“物种”。我们借鉴神经科学中的功能定位方法，对不同模型进行分析，结果发现，在一个大语言模型中，真正承担核心语言处理功能的组件只占相对较小的一部分，其余大量组件则服务于各种辅助性任务。这一结构特征再次呼应了人类大脑的组织方式，即语言网络本身与更广泛的推理系统和世界知识系统相互区分。

这种双向的交叉研究正在持续展现其价值。一方面，我们利用人工智能模型理解大脑；另一方面，也借助神经科学工具解析模型本身。这种协同效应正在不断增强，有望推动我们构建出更加贴近真实大脑运作机制的计算模型。

金·斯塔肯费尔德

Kim Stachenfeld

哥伦比亚大学理论神经科学中心的兼职助理教授、Google DeepMind 的资深研究科学家

她的研究横跨神经科学与人工智能领域，重点关注以人工智能为灵感的神经计算模型，以及如何利用AI工具来解析和理解大脑数据。

真正的难点在于如何理解这些模型，即厘清代码中不同组成部分的功能，以及它们与既有研究之间的联系。

计算模型在神经科学中具有重要地位，它们将对神经过程的抽象描述与可通过数据检验的定量预测结合起来。长期以来，这类模型的构建几乎完全由人类完成，通常需要同时精通神经科学与建模方法的专业研究者。如今，大语言模型已能够编写可执行代码，为自动生成计算模型提供了新的可能。

尽管大语言模型生成的代码在质量上仍逊于熟练程序员，但其优势在于生成速度快且可规模化产出。以AlphaEvolve为代表的方法正是利用了这一特点，在优化循环中持续生成并改进代码，以寻找能够最大化特定目标函数的程序[13]。我们团队用这一思路寻找数据驱动的计算模型，并对大语言模型生成的程序进行优化，使其能够更好地刻画和拟合神经科学数据集。

我们还将这一方法应用于动物学习行为的计算模型发现[14]。整个流程从一个“提示”开始，其中包含示例程序，以及对大语言模型的修改方式的具体说明。模型据此生成修改后的程序，并根据其对行为数据的拟合效果进行评分。在每一轮迭代中，提示中的示例程序都会被得分更高的模型生成程序所替换。

最终得到的程序在数据拟合上表现良好，这是针对该目标反复优化的结果。同时，由于这些代码源自在人类编写代码语料上训练的大语言模型，其整体可读性也较高。但真正具有挑战性的，在于如何理解这些模型，即厘清代码中不同组成部分的功能，以及它们与既有研究之间的联系。

这项研究揭示了生成式人工智能所带来的一种更广泛的权衡关系。在过去，构建模型本身是理论研究者面临的核心难题。而这一艰难过程往往在无形中确保模型具备若干重要特征，例如扎根于既有文献、具备良好的可解释性、体现一定创新性，并聚焦于关键研究现象。

而在生成式工具的帮助下，模型的产出变得前所未有地容易，但其质量却不再自然得到保证。因此，计算神经科学研究者如今面临的新挑战，是必须更加明确地界定并形式化表达，我们究竟希望模型具备哪些核心属性。

https://www.thetransmitter.org/neuroscientists-using-ai/how-neuroscientists-are-using-ai/