从诊断癫痫到驱动脑机接口,从监测睡眠到解码情绪,脑电图早已成为窥探大脑活动的窗口。然而,这些珍贵的脑电数据却像被飓风打散的拼图,散落在OpenNeuro、PhysioNet、OSF、Zenodo、Figshare等数十个平台上,格式各异、标准不一。当你想训练一个能像GPT-3理解语言那样"理解"大脑的基础模型时,首先要面对的不是算法难题,而是"数据在哪里"的世纪之问。
一、827个数据集,13万人的"脑电拼图"
2026年,华南理工大学李小俚教授/陈贺教授团队,联合麻省理工学院路子童博士,在Brain-X期刊上发表了一项"数据基建"研究:系统筛查了2020年至2026年间公开发表的EEG资源,最终构建了一个包含827个数据集、覆盖13万余名参与者的统一EEG数据注册表。这就像为散落在全球各地的脑电拼图,绘制了一张带GPS定位的藏宝图。
图1 EEG数据注册表概览,涵盖六大类别与核心元数据
这项工作的筛选过程堪称"学术考古"。研究团队遵循PRISMA-ScR系统综述指南,从各大平台初筛出近千条记录,经过标题摘要筛选、全文评估、去重和可用性验证,最终精确定位到827个符合标准的数据集。每一个被收录的数据集都必须满足严苛条件:包含可分析的EEG信号、具备可追溯的引用信息、提供支持再利用的基础元数据。
图2 基于PRISMA框架的数据集筛选与纳入流程
二、六大"门派":EEG数据的江湖格局
当这些拼图被摆上桌面,一幅EEG数据世界的"全景地图"首次清晰呈现。研究团队按科学意图将数据集划分为六大类别:认知(Cognitive)、脑机接口(BCI)、临床(Clinical)、自然情境(Naturalistic)、神经调控(Neuromodulation)和方法学(Methodological)。
其中,认知类数据集以504个的绝对优势占据半壁江山,涵盖感知、记忆与学习、语言处理、注意、执行功能、情绪处理等14个子领域。这反映出EEG研究长期以来扎根于严格控制的实验室范式,拥有清晰的事件标记和试次结构,非常适合事件相关电位(ERP)分析。
图3 认知类数据集的子类别分布,感知与记忆学习占据最大份额
临床类以116个数据集位居第二,构成了一座"数字疾病博物馆"。从阿尔茨海默病、帕金森病到自闭症谱系障碍(ASD)、抑郁症、精神分裂症,再到癫痫发作检测与睡眠分期,这些数据集将EEG从研究工具推向了诊断前沿。值得注意的是,许多癫痫数据集由临床中心通过独立网站发布,形成了一个高度碎片化的"数据飞地"。
图4 临床EEG数据集在神经系统疾病、精神疾病、癫痫等亚型中的分布
BCI类的106个数据集则像一部"人机交互进化史"。从经典的运动想象(MI)、稳态视觉诱发电位(SSVEP)到P300拼写器,再到情绪解码、语言意图识别,这些数据集的标准化程度最高,标签结构清晰,是算法 benchmarking 的"黄金矿场"。
相比之下,自然情境类(55个)和神经调控类(27个)则显得稀缺。前者记录真实世界中的驾驶、行走、游戏、自然视听场景,后者采集经颅磁刺激(TMS)、经颅直流电刺激(tDCS)等干预下的脑电变化。这种"贫富不均"暗示了一个潜在风险:如果直接用现有数据按比例训练基础模型,AI可能会变成一个只懂实验室范式、却看不懂真实生活的"书呆子"。
三、数据孤岛:平台之间的"巴别塔"
数据的分布不仅体现在科学类别上,也体现在"地理位置"——即存储平台上。OSF以353个数据集成为最大"数据仓库",但其内容高度偏向认知研究;OpenNeuro(173个)在认知与临床之间更为均衡;Zenodo和Figshare则承载了更高比例的BCI数据集。这意味着,如果你只在一个平台搜索,很可能会系统性地遗漏某些研究范式。
图5 数据集在研究类别与数据平台上的结构分布
图6 主要EEG数据集在主要存储库平台上的分布,不同平台呈现明显的类别偏向
四、从"藏宝图"到"通用语":让AI真正读懂大脑
然而,这项研究最"硬核"的贡献不止于做目录。团队深知,即便有了藏宝图,不同设备、不同通道数、不同采样率的数据依然"语言不通"。为此,他们提供了一个轻量级归一化演示,选取了来自不同平台、覆盖RSVP视觉注意、语言产出、情绪调节和SSVEP四种范式的代表性数据集,执行了一条"翻译流水线":固定长度裁剪、平均重参考、将128通道映射到统一的32通道10-20模板、重采样至256Hz、0.5-40Hz带通滤波,最终输出格式无关的张量。
图7 EEG信号归一化工作流程,将异构数据转化为统一的32通道训练就绪表示
这揭示了一个关键思路:下一代EEG基础模型的瓶颈,可能不在于算法不够先进,而在于数据没有对齐。正如论文所言,现有模型如LaBraM、EEGPT、BIOT虽已迈出预训练步伐,但跨设备、跨任务、跨被试的泛化仍受限于数据的异质性。这个注册表通过标准化的元数据字段——包括任务范式、设备型号、通道数、导联方式、采样率、被试年龄与健康状态、许可协议、标签可用性等——让研究者能够像筛选商品一样,按维度检索和组装训练语料。
从更广阔的视角看,这项工作呼应了FAIR原则和EEG-BIDS标准所倡导的数据共享理念。它不提供ETL式的统一格式仓库,而是搭建了一个"可发现、可过滤、可检索"的元数据基础设施,让全球研究者能够透明地构建跨数据集训练语料。
或许在不远的将来,当脑机接口能像识别语音一样流畅地解码你的运动意图,当智能手表能通过脑电信号预警癫痫发作,我们不该忘记这场"数据拼图"的奠基工作。毕竟,在人工智能时代,数据注册表本身就是一项核心科技。
正如论文作者所展示的:让13万人的大脑电信号"说同一种语言",或许才是打开通用脑智能大门的真正钥匙。
参考:Shi S, Song Y, Wang Y, et al. Toward general-purpose foundation models for electroencephalography: a unified data registry. Brain-X. 2026.
脑机接口社区是国内首家脑机接口(BCI)产业服务平台。主要为企业、科研团队、投资机构和从业者提供以下服务:
宣传报道:图文、短视频、直播形式报道企业动态、技术解读、产品介绍等内容,提升曝光和行业影响力。
资源对接:根据需求匹配资本、供应链、临床机构、渠道方等资源,完成真实对接,促进合作。
成果转化:协助技术团队寻找产业方、投资人及落地场景,推动技术到产品的转化。
活动策划执行:承接线上线下路演、沙龙、论坛等活动的策划与执行。
其他定制需求:包括报告定制、市场调研、人才招聘支持等个性化服务。
合作洽谈,请联系微信:ZuoLeiLeiya
(备注:姓名-单位-合作)
投稿丨成为创作者,请联系微信:RoseBCI
不错过每一条脑机前沿进展
一键三连「分享」、「点赞」和「在看」
欢迎在评论区聊聊
热门跟贴