科学家开发类脑视频识别模型MovieNet，准确率超人眼

DeepTech深科技

2024-12-12 16:51 ·北京 ·《DeepTech深科技》官方网易号

在人工智能领域，静态图像识别技术已经取得了长足进展，但对于动态视频场景的理解和处理仍然存在较大不足。

此前，我们介绍过，在李飞飞团队的视频理解基准 HourVideo 中，即便是目前最先进的多模态模型，其测试正确率也只是比随机猜测（20%）略好一点。

现有的 AI 模型难以像人脑那样实时解读和理解连续变化的视觉信息，这主要是因为它们缺乏对时序信息的有效处理能力。

因此，如果想要让 AI 真正地与人类的生活环境和复杂情景相适应，我们或许需要对这一缺陷做出针对性的改进。

近日，美国 Scripps 研究所的科学家团队，从大脑神经元处理视觉信息的机制中得到启发，开发出一种名为 MovieNet 的 AI 模型，在视频理解任务上取得突破。

相关研究以《识别电影编码神经元实现电影识别 AI》（Identification of movie encoding neurons enables movie recognition AI）为题发表在PNAS（《美国国家科学院院刊》）上 [1]。

众所周知，人工智能的进步深受神经科学的启发。例如，经典的卷积神经网络（CNN）借鉴了视觉皮层的层级处理结构，而强化学习算法则模仿了神经回路中奖励机制的工作原理。

而 MovieNet 的核心创新同样在于其受启发于的大脑视觉处理机制。研究团队以非洲爪蟾为模型，重点研究了其顶盖（optic tectum）神经元的感受野（receptive field, RF）。

通过稀疏噪声刺激和逆相关分析，他们记录了神经元对 200 至 600 毫秒电影序列的响应，发现这些神经元能够以一种独特的方式编码时间序列图像。

研究显示，视觉神经元的响应具有高度选择性。当电影序列按照特定的“最佳顺序”呈现时，神经元的反应最为强烈；而当序列被逆转或随机化时，反应显著减弱。

这种选择性不仅体现在单个神经元的反应中，还通过神经回路中的抑制机制进一步强化。

通过使用 GABA 受体拮抗剂（如哌可毒素），研究团队发现，去除抑制作用后，神经元对逆序刺激的反应显著增强，而对最佳顺序的反应保持不变。

这表明，抑制机制是实现电影序列选择性的重要因素，它通过抑制无关信息的传播，使得神经网络能够聚焦于关键的序列信息。

此外，研究还揭示了神经元在编码动态场景时的时序塑性。当环境中视觉刺激的时序特性发生变化时，神经元的 ON-OFF 响应规律能够通过训练进行调整，从而适应新的环境需求。

这种动态调整能力不仅是自然视觉系统的核心特性，也为 AI 的设计提供了重要启发。

在上述研究的启发下，研究团队模仿神经元时空编码规律开发了 MovieNet 模型。其核心在于其电影编码器的设计，这些编码器基于顶盖神经元的感受野规则，将电影场景压缩为高维特征矩阵。

具体而言，每个编码器模拟了神经元的 ON-OFF 响应规律，能够捕捉电影中亮度的变化以及终止信号。这种设计不仅减少了数据的复杂性，还显著优化了计算效率。

为了进一步提升识别能力，研究团队引入了多重编码器（multiplexed encoders）的概念。他们将多个具有不同感受野特性的编码器组合在一起，以捕捉更广泛的视觉信息。

这些编码器的输出被输入到一个仅包含单层卷积神经网络（CNN）的模型中，从而显著简化了传统 AI 模型的复杂性。

在测试中，MovieNet 对动态场景的分类表现优异，尤其是在分类蝌蚪游泳行为的实验中，其准确率达到了 82.3%，显著超越传统深度学习模型（如 AlexNet 和 GoogLeNet）的 40%-72%，也超过了训练有素的人类观察者 (64.5%)。

更重要的是，MovieNet 在计算效率方面也具有优势。AlexNet 和 GoogLeNet 等传统深度学习模型的网络架构保护多层处理层和 CNN 结构，需要耗费巨大的计算资源。

即便在无限计算资源和时间的假设下，这些模型可能达到更高的准确率，但这一需求本身可能限制其在实际场景中的应用。

相比之下，MovieNet 通过模仿自然神经元的编码策略，以更高效的方式解决了电影识别问题，体现了基于大脑算法的独特优势。

这种出色的识别能力，使其在医疗领域展现出巨大的应用潜力。例如，MovieNet 能够捕捉蝌蚪在接触不同化学物质时游泳模式的细微变化，这有望对药物筛选技术进行改进。

传统方法往往依赖静态图像的间隔捕获，容易遗漏动态变化中的关键信息。而 MovieNet 能够持续观察和记录动态细胞反应，从而追踪药物测试过程中最微小的变化。

此外，MovieNet 也有望成为一种诊断早期疾病的工具。例如，与帕金森症相关的微小运动变化往往难以被人眼捕捉，而 MovieNet 的高灵敏度算法可以提前标记这些变化，为临床医生提供宝贵的干预时间。

同样地，该技术还可能用于心律不齐等疾病的早期检测，为患者争取更多治疗窗口。这种实时捕捉和分类复杂动态模式的能力，展现了 MovieNet 在医疗诊断中的巨大潜力。

研究团队的首席科学家 Hollis Cline 表示：“MovieNet 的成功不仅证明了生物启发式 AI 的可行性，更重要的是开创了一个新的研究方向。

通过深入理解生物神经系统的工作原理，我们可以开发出更智能、更高效的 AI 系统。这种方法不仅能够提高 AI 的性能, 还能大幅降低能源消耗和计算资源需求。”

展望未来，研究团队计划进一步优化模型架构，提高处理效率，并探索更多应用场景。

他们特别关注医疗诊断领域的应用拓展，以及与其他 AI 技术的融合可能性。同时，团队也将致力于研究更复杂的视觉认知任务，推动 AI 技术在视频理解领域的持续进步。

“从生物学中汲取灵感将继续成为推动人工智能发展的沃土，”Cline 说。“通过设计像生物体一样思考的模型，我们可以达到传统方法无法实现的效率水平。”

参考资料：

1.https://www.pnas.org/doi/10.1073/pnas.2412260121#data-availability

2.https://neurosciencenews.com/brain-ai-video-watching-28218/

运营/排版：何晨龙

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴