华南理工/麻省理工团队：面向EEG基础模型的数据基建|eeg|元数据|华南理工|大模型|数据仓库|数据基建|算法|麻省理工

从诊断癫痫到驱动脑机接口，从监测睡眠到解码情绪，脑电图早已成为窥探大脑活动的窗口。然而，这些珍贵的脑电数据却像被飓风打散的拼图，散落在OpenNeuro、PhysioNet、OSF、Zenodo、Figshare等数十个平台上，格式各异、标准不一。当你想训练一个能像GPT-3理解语言那样"理解"大脑的基础模型时，首先要面对的不是算法难题，而是"数据在哪里"的世纪之问。

一、827个数据集，13万人的"脑电拼图"

2026年，华南理工大学李小俚教授/陈贺教授团队，联合麻省理工学院路子童博士，在Brain-X期刊上发表了一项"数据基建"研究：系统筛查了2020年至2026年间公开发表的EEG资源，最终构建了一个包含827个数据集、覆盖13万余名参与者的统一EEG数据注册表。这就像为散落在全球各地的脑电拼图，绘制了一张带GPS定位的藏宝图。

图1 EEG数据注册表概览，涵盖六大类别与核心元数据

这项工作的筛选过程堪称"学术考古"。研究团队遵循PRISMA-ScR系统综述指南，从各大平台初筛出近千条记录，经过标题摘要筛选、全文评估、去重和可用性验证，最终精确定位到827个符合标准的数据集。每一个被收录的数据集都必须满足严苛条件：包含可分析的EEG信号、具备可追溯的引用信息、提供支持再利用的基础元数据。

图2 基于PRISMA框架的数据集筛选与纳入流程

二、六大"门派"：EEG数据的江湖格局

当这些拼图被摆上桌面，一幅EEG数据世界的"全景地图"首次清晰呈现。研究团队按科学意图将数据集划分为六大类别：认知（Cognitive）、脑机接口（BCI）、临床（Clinical）、自然情境（Naturalistic）、神经调控（Neuromodulation）和方法学（Methodological）。

其中，认知类数据集以504个的绝对优势占据半壁江山，涵盖感知、记忆与学习、语言处理、注意、执行功能、情绪处理等14个子领域。这反映出EEG研究长期以来扎根于严格控制的实验室范式，拥有清晰的事件标记和试次结构，非常适合事件相关电位（ERP）分析。

图3 认知类数据集的子类别分布，感知与记忆学习占据最大份额

临床类以116个数据集位居第二，构成了一座"数字疾病博物馆"。从阿尔茨海默病、帕金森病到自闭症谱系障碍（ASD）、抑郁症、精神分裂症，再到癫痫发作检测与睡眠分期，这些数据集将EEG从研究工具推向了诊断前沿。值得注意的是，许多癫痫数据集由临床中心通过独立网站发布，形成了一个高度碎片化的"数据飞地"。

图4 临床EEG数据集在神经系统疾病、精神疾病、癫痫等亚型中的分布

BCI类的106个数据集则像一部"人机交互进化史"。从经典的运动想象（MI）、稳态视觉诱发电位（SSVEP）到P300拼写器，再到情绪解码、语言意图识别，这些数据集的标准化程度最高，标签结构清晰，是算法 benchmarking 的"黄金矿场"。

相比之下，自然情境类（55个）和神经调控类（27个）则显得稀缺。前者记录真实世界中的驾驶、行走、游戏、自然视听场景，后者采集经颅磁刺激（TMS）、经颅直流电刺激（tDCS）等干预下的脑电变化。这种"贫富不均"暗示了一个潜在风险：如果直接用现有数据按比例训练基础模型，AI可能会变成一个只懂实验室范式、却看不懂真实生活的"书呆子"。

三、数据孤岛：平台之间的"巴别塔"

数据的分布不仅体现在科学类别上，也体现在"地理位置"——即存储平台上。OSF以353个数据集成为最大"数据仓库"，但其内容高度偏向认知研究；OpenNeuro（173个）在认知与临床之间更为均衡；Zenodo和Figshare则承载了更高比例的BCI数据集。这意味着，如果你只在一个平台搜索，很可能会系统性地遗漏某些研究范式。

图5 数据集在研究类别与数据平台上的结构分布

图6 主要EEG数据集在主要存储库平台上的分布，不同平台呈现明显的类别偏向

四、从"藏宝图"到"通用语"：让AI真正读懂大脑

然而，这项研究最"硬核"的贡献不止于做目录。团队深知，即便有了藏宝图，不同设备、不同通道数、不同采样率的数据依然"语言不通"。为此，他们提供了一个轻量级归一化演示，选取了来自不同平台、覆盖RSVP视觉注意、语言产出、情绪调节和SSVEP四种范式的代表性数据集，执行了一条"翻译流水线"：固定长度裁剪、平均重参考、将128通道映射到统一的32通道10-20模板、重采样至256Hz、0.5-40Hz带通滤波，最终输出格式无关的张量。

图7 EEG信号归一化工作流程，将异构数据转化为统一的32通道训练就绪表示

这揭示了一个关键思路：下一代EEG基础模型的瓶颈，可能不在于算法不够先进，而在于数据没有对齐。正如论文所言，现有模型如LaBraM、EEGPT、BIOT虽已迈出预训练步伐，但跨设备、跨任务、跨被试的泛化仍受限于数据的异质性。这个注册表通过标准化的元数据字段——包括任务范式、设备型号、通道数、导联方式、采样率、被试年龄与健康状态、许可协议、标签可用性等——让研究者能够像筛选商品一样，按维度检索和组装训练语料。

从更广阔的视角看，这项工作呼应了FAIR原则和EEG-BIDS标准所倡导的数据共享理念。它不提供ETL式的统一格式仓库，而是搭建了一个"可发现、可过滤、可检索"的元数据基础设施，让全球研究者能够透明地构建跨数据集训练语料。

或许在不远的将来，当脑机接口能像识别语音一样流畅地解码你的运动意图，当智能手表能通过脑电信号预警癫痫发作，我们不该忘记这场"数据拼图"的奠基工作。毕竟，在人工智能时代，数据注册表本身就是一项核心科技。

正如论文作者所展示的：让13万人的大脑电信号"说同一种语言"，或许才是打开通用脑智能大门的真正钥匙。

参考：Shi S, Song Y, Wang Y, et al. Toward general-purpose foundation models for electroencephalography: a unified data registry. Brain-X. 2026.