NeurIPS 2024 | 上交大、微软和上科大发布：首次从脑电信号重建生动视频|eeg|上交大|上科大|序列|微软|电信号|知名企业|脑信号|脑电

论文链接：https://openreview.net/forum?id=RfsfRn9OFd

作者：刘轩豪，刘彦楷，王延森，任侃，史涵雯，王子龙，李东胜，吕宝粮，郑伟龙

项目网页：

EEG2Video [https://bcmi.sjtu.edu.cn/home/eeg2video]

一、研究介绍

现在，AI不仅会读脑，还能用大脑信号生成视频！

来自上海交通大学，微软亚洲研究院，和上海科技大学的团队提出了一个名叫EEG2Video的AI模型，它可以根据收集的脑电（EEG）数据重建生动视频。

他们表示，模型在40类语义分类任务中的平均准确率为15.9%（随机水平为2.5%），在结构相似性指数 (SSIM) 中的平均准确率为0.256，是首次从EEG信号（一种高时间分辨率的神经信号，记录头皮电位变化）重建视频的研究。实验范式如图1所示。

图1. 从脑电信号中重建视频的流程

相关研究成果以“EEG2Video: Towards Decoding Dynamic Visual Perception from EEG Signals”（EEG2Video: 尝试从脑电信号中解码动态视觉感知）为题在国际机器学习顶级会议NeurIPS 2024上发表。

二、脑电视频对数据集（SEED-DV）

他们搭建了一个大型数据集SEED-DV，采集了20名被试观看了1400段2秒视频的EEG信号。1400段视频包含了40个自然概念，如森林，滑雪，轮船等，覆盖了9类粗粒度类别：陆地动物，水生动物，植物，锻炼，人类，自然场景，食物，乐器，和交通工具。

图2.所有40个自然概念，以及视频的元信息的均值热图

每名被试依次观看了7个视频块，每个视频块都有40类视频，但顺序随机。块与块之间有至少30秒的休息阶段。被试首先被提示接下来即将看到的类别，然后观看5段不同的该类视频。实验流程如图3所示。

图3. 搭建SEED-DV数据集的实验环境与流程

三、脑电重建视频框架：EEG2Video

他们提出了一个从脑电信号重建视频的框架EEG2Video，为了处理高时间分辨率但低空间分辨率的脑信号，EEG2Video设计了如下几个模块，以更好地解码视频：

使用序列到序列（Seq2Seq）模型将脑电嵌入与低级视觉信息紧密对齐。
使用语义预测器将脑电嵌入与语义信息对齐。
使用动态感知的加噪（Dynamic-Aware Noise Adding, DANA）模块，将快/慢的动态信息引入扩散过程。
使用膨胀的扩散模型来生成生动的视频。

图4. EEG2Video框架结构，微调膨胀扩散模型

四、重建结果

他们从定性和定量两个部分展示了从脑电重建视频的结果，可以从图5中看出，EEG2Video可以正确恢复跨越动物、场景、人物和活动的低动态（如山、海滩、脸）和高动态（如滑雪、烟花、跳舞）的各种视频片段。更多的动图例子可以点进项目网页查看：EEG2Video [https://bcmi.sjtu.edu.cn/home/eeg2video]。

图5. EEG2Video重建结果定性展示

关于定量结果，改论文比较了以下五个指标，基于视频的语义指标和基于帧的语义指标：2-way和40-way来验证语义层面的重建准确率，和结构相似性指数SSIM来验证结构层面的重建准确率。从表1中开出，随着类别数量的增加，重建性能下降。当处理包含10个类的子集时，我们的框架达到了40种语义级别准确率的34.0%，当面对整个40个类时，达到了15.9%。

表1 .每种方法对不同子集大小的定量结果。标准偏差是通过随机种子计算的。

五、结论

EEG2Video成功展示了脑电信号在视觉重建领域的潜力，尤其是处理高时间分辨率数据如视频的能力。这项研究为视觉解码技术的实际应用提供了新的解决方案，有望推动视觉解码接口技术在更广泛场景中的应用。

这项研究由郑伟龙老师、王延森研究员和任侃老师共同指导，博士生刘轩豪和硕士生刘彦楷担任论文第一作者，史涵雯，王子龙，李东胜，吕宝粮等老师和同学也为论文工作做出了重要贡献。

仅用于学术分享，若侵权请留言，即时删侵！

欢迎加入脑机接口社区交流群，

探讨脑机接口领域话题，实时跟踪脑机接口前沿。

加微信群：

添加微信:RoseBCI【备注：姓名+行业/专业】。

欢迎来稿

1.欢迎来稿。投稿咨询，请联系微信：RoseBCI

点击投稿：