一键关注,点亮星标 ⭐️ 前沿不走丢!
认知神经科学前沿文献分享
基本信息
Title:YORU: Animal behavior detection with object-based approach for real-time closed-loop feedback
发表时间:2026.2.11
发表期刊:Science Advances
影响因子:12.5
获取原文:
添加小助手:PSY-Brain-Frontier即可获取PDF版本
引言
这几年,动物行为分析最热的路线之一,是用深度学习(deep learning)去自动识别姿态、动作和互动事件。可一旦研究对象从“单只动物做了什么”变成“多只动物彼此在做什么”,事情就会立刻复杂起来。
传统的姿态估计(pose estimation)思路,需要先稳定追踪每只动物的多个身体部位,再根据时序关系去定义行为;但在社交场景里,遮挡、贴近、转向变化和细碎动作都很常见,身体部位一旦跟丢,后续判断就容易连锁出错。尤其是求偶、攻击、互喂这类行为,研究者真正关心的往往不是某个关节坐标,而是“这一刻是否发生了具有生物学意义的互动”。
这篇论文抓住了这个痛点,提出把行为本身当成一个可以直接识别的“行为对象(behavior object)”,用目标检测(object detection)算法而不是骨点轨迹来判断行为是否出现。作者开发的系统名为 YORU(your optimal recognition utility),核心目标并不只是“识别更准”,而是进一步实现实时分析与闭环反馈(closed-loop feedback):当目标行为一出现,系统就能立刻驱动外部设备,甚至把光遗传学(optogenetics)刺激精准送到正在互动的特定个体身上。换句话说,这项工作试图把“看见行为”与“当场干预行为”真正接到一起。
实验设计与方法逻辑
作者先把不同物种、不同社交场景中的目标行为手工标注为边界框,用 YOLOv5 这类目标检测模型训练 YORU,再将其与人工标注以及姿态估计相关方法比较,检验识别准确性与泛化能力;随后把系统接入小鼠广域钙成像(wide-field calcium imaging)数据,验证行为读出能否帮助解释脑活动;最后评估实时推理速度、端到端延迟,并在果蝇求偶实验中完成事件触发和个体选择性的光刺激,检验其闭环操控价值。
核心发现
把“行为”当成目标来抓,社交行为识别反而更稳
论文最重要的创新,是不再绕到身体部位坐标上定义行为,而是直接把展翅、互喂、定向等状态当成可检测对象。图1先给出这一思路,图2则展示它在果蝇、蚂蚁和斑马鱼上的落地效果:与人工标注相比,YORU 对果蝇展翅、蚂蚁互喂、斑马鱼定向行为的准确率分别达到 93.3%、98.3% 和 90.5%。这几张图值得看,因为它们说明作者不是只做了一个单物种工具,而是在跨物种社交场景中验证了这套定义方式的可行性。
Fig. 1. YORU detects animal behaviors as a behavior object.
Fig. 2. Detection of animal behaviors by YORU.
多个个体挤在一起时,YORU比传统思路更有优势
这篇文章真正瞄准的是“多人同框”式的复杂场景。作者把 YORU 与 SLEAP、Keypoint-MoSeq、A-SOiD 等基于姿态或关键点的方法作比较,发现后者在遮挡、朝向混淆和个体贴近时更容易失误,而 YORU 在相同评估框架下整体表现更稳。图2后半部分和补充结果尤其关键:即便扩展到群体果蝇、群体蚂蚁,甚至把检测对象数提高到 60 只果蝇,系统仍保持可用精度。这说明它的价值不只是“能识别”,而是更适合真实社交行为研究的复杂现场。
Fig. 2. Detection of animal behaviors by YORU.
行为读出不只用于计数,还能直接帮助解释脑活动
作者没有停留在“算法测试”层面,而是把 YORU 接入头固定小鼠的虚拟现实实验。图3很有说服力:系统从视频中读出跑动、停顿、胡须运动、眨眼和理毛等多类行为,再把这些时间序列与皮层神经活动做相关分析。结果显示,不同行为对应着不同的大脑皮层宏观活动图谱,比如跑动更相关于运动区、体感区和视觉相关区域,理毛则更贴近前肢感觉和运动区域。读者要抓住的重点是,YORU 输出的不只是“有没有行为”,而是能成为解释神经信号结构的有效变量。
Fig. 3. YORU uncovers the relationship between behavioral readouts and neural activity interpretation.
识别够快,才有资格进入闭环;YORU已经做到了
图4到图6共同回答了一个最实际的问题:这套系统能不能真的实时工作。作者测得,在其测试条件下,端到端系统延迟大约为 30 ms;在与 SLEAP 的直接比较中,YORU 的平均延迟为 31.3 ± 8.0 ms,低于 SLEAP 的 46.5 ± 10.0 ms。更关键的是,作者用它完成了两类闭环果蝇实验:一类在雄蝇展翅时立即触发光刺激,减少展翅并降低交配率;另一类则用投影把刺激定向打到被求偶的雌蝇身上,目标胸部照射命中时间占总刺激时长的 89.5%,同样显著降低交配率。图5和图6之所以重要,是因为它们证明 YORU 不只是“看懂了行为”,而是已经能“利用行为做因果干预”。
Fig. 4. Validation of YORU’s operation speed.
Fig. 5. Neural manipulation in response to male wing extension using YORU.
Fig. 6. Individual-specific neural manipulation by YORU.
归纳总结和点评
总体来看,这篇工作最有分量的地方,在于它把动物社交行为分析从“离线描述”往“实时闭环操控”推进了一步。YORU 通过目标检测思路避开了多动物场景中骨点跟踪最容易失灵的环节,又保留了空间定位能力,因此特别适合与神经记录、光刺激和外设控制结合。作者也很坦诚地指出了局限:它依赖单帧外观,暂不支持个体身份追踪,投影刺激还会受硬件延迟影响。正因为边界说得清楚,这套系统反而更显得可靠、实用,也更可能被实验室真正拿去用。
请打分
这篇刚刚登上Science Advances的研究,是否实至名归?我们邀请您作为“云审稿人”,一同品鉴。精读全文后,欢迎在匿名投票中打分,并在评论区分享您的深度见解。
分享人:BQ
审核:PsyBrain 脑心前沿编辑部
你好,这里是「PsyBrain 脑心前沿」
专注追踪全球认知神经科学的最尖端突破
视野直击 Nature, Science, Cell 正刊 及 Nat Neurosci, Nat Hum Behav, Neuron, Sci Adv 等核心子刊与顶级大刊
每日速递「深度解读」与「前沿快讯」,为你打破信息差
科研是一场探索未知的长跑,但你无需独行。欢迎志同道合的你加入PsyBrain 学术社群,和一群懂你的同行,共同丈量脑与心智的无垠前沿。
点击卡片进群,欢迎你的到来
一键分享,让更多人了解前沿
热门跟贴