论文链接:https://openreview.net/forum?id=RfsfRn9OFd

作者:刘轩豪,刘彦楷,王延森,任侃,史涵雯,王子龙,李东胜,吕宝粮,郑伟龙

项目网页:

EEG2Video [https://bcmi.sjtu.edu.cn/home/eeg2video]

一、研究介绍

现在,AI不仅会读脑,还能用大脑信号生成视频!

来自上海交通大学,微软亚洲研究院,和上海科技大学的团队提出了一个名叫EEG2Video的AI模型,它可以根据收集的脑电(EEG)数据重建生动视频。

他们表示,模型在40类语义分类任务中的平均准确率为15.9%(随机水平为2.5%),在结构相似性指数 (SSIM) 中的平均准确率为0.256,是首次从EEG信号(一种高时间分辨率的神经信号,记录头皮电位变化)重建视频的研究。实验范式如图1所示。

图1. 从脑电信号中重建视频的流程

相关研究成果以“EEG2Video: Towards Decoding Dynamic Visual Perception from EEG Signals”(EEG2Video: 尝试从脑电信号中解码动态视觉感知)为题在国际机器学习顶级会议NeurIPS 2024上发表。

二、脑电视频对数据集(SEED-DV)

他们搭建了一个大型数据集SEED-DV,采集了20名被试观看了1400段2秒视频的EEG信号。1400段视频包含了40个自然概念,如森林,滑雪,轮船等,覆盖了9类粗粒度类别:陆地动物,水生动物,植物,锻炼,人类,自然场景,食物,乐器,和交通工具。

图2.所有40个自然概念,以及视频的元信息的均值热图

每名被试依次观看了7个视频块,每个视频块都有40类视频,但顺序随机。块与块之间有至少30秒的休息阶段。被试首先被提示接下来即将看到的类别,然后观看5段不同的该类视频。实验流程如图3所示。

图3. 搭建SEED-DV数据集的实验环境与流程

三、脑电重建视频框架:EEG2Video

他们提出了一个从脑电信号重建视频的框架EEG2Video,为了处理高时间分辨率但低空间分辨率的脑信号,EEG2Video设计了如下几个模块,以更好地解码视频:

  • 使用序列到序列(Seq2Seq)模型将脑电嵌入与低级视觉信息紧密对齐。

  • 使用语义预测器将脑电嵌入与语义信息对齐。

  • 使用动态感知的加噪(Dynamic-Aware Noise Adding, DANA)模块,将快/慢的动态信息引入扩散过程。

  • 使用膨胀的扩散模型来生成生动的视频。

图4. EEG2Video框架结构,微调膨胀扩散模型

四、重建结果

他们从定性和定量两个部分展示了从脑电重建视频的结果,可以从图5中看出,EEG2Video可以正确恢复跨越动物、场景、人物和活动的低动态(如山、海滩、脸)和高动态(如滑雪、烟花、跳舞)的各种视频片段。更多的动图例子可以点进项目网页查看:EEG2Video [https://bcmi.sjtu.edu.cn/home/eeg2video]。

图5. EEG2Video重建结果定性展示

关于定量结果,改论文比较了以下五个指标,基于视频的语义指标和基于帧的语义指标:2-way和40-way来验证语义层面的重建准确率,和结构相似性指数SSIM来验证结构层面的重建准确率。从表1中开出,随着类别数量的增加,重建性能下降。当处理包含10个类的子集时,我们的框架达到了40种语义级别准确率的34.0%,当面对整个40个类时,达到了15.9%。

表1 .每种方法对不同子集大小的定量结果。标准偏差是通过随机种子计算的。

五、结论

EEG2Video成功展示了脑电信号在视觉重建领域的潜力,尤其是处理高时间分辨率数据如视频的能力。这项研究为视觉解码技术的实际应用提供了新的解决方案,有望推动视觉解码接口技术在更广泛场景中的应用。

这项研究由郑伟龙老师、王延森研究员和任侃老师共同指导,博士生刘轩豪和硕士生刘彦楷担任论文第一作者,史涵雯王子龙李东胜吕宝粮等老师和同学也为论文工作做出了重要贡献。

仅用于学术分享,若侵权请留言,即时删侵!

欢迎加入脑机接口社区交流群,

探讨脑机接口领域话题,实时跟踪脑机接口前沿。

加微信群:

添加微信:RoseBCI【备注:姓名+行业/专业】。

欢迎来稿

1.欢迎来稿。投稿咨询,请联系微信:RoseBCI

点击投稿:

2.加入社区成为兼职创作者,请联系微信:RoseBCI

一键三连「分享」、「点赞」和「在看」

不错过每一条脑机前沿进展