Science Advances | YORU：把动物社交行为识别带入实时闭环时代|advances|动物行为|斑马鱼|果蝇|社交行为识别|追踪

一键关注，点亮星标 ⭐️ 前沿不走丢！

认知神经科学前沿文献分享

基本信息

Title:YORU: Animal behavior detection with object-based approach for real-time closed-loop feedback

发表时间：2026.2.11

发表期刊:Science Advances

影响因子：12.5

获取原文：

添加小助手:PSY-Brain-Frontier即可获取PDF版本

引言

这几年，动物行为分析最热的路线之一，是用深度学习（deep learning）去自动识别姿态、动作和互动事件。可一旦研究对象从“单只动物做了什么”变成“多只动物彼此在做什么”，事情就会立刻复杂起来。

传统的姿态估计（pose estimation）思路，需要先稳定追踪每只动物的多个身体部位，再根据时序关系去定义行为；但在社交场景里，遮挡、贴近、转向变化和细碎动作都很常见，身体部位一旦跟丢，后续判断就容易连锁出错。尤其是求偶、攻击、互喂这类行为，研究者真正关心的往往不是某个关节坐标，而是“这一刻是否发生了具有生物学意义的互动”。

这篇论文抓住了这个痛点，提出把行为本身当成一个可以直接识别的“行为对象（behavior object）”，用目标检测（object detection）算法而不是骨点轨迹来判断行为是否出现。作者开发的系统名为 YORU（your optimal recognition utility），核心目标并不只是“识别更准”，而是进一步实现实时分析与闭环反馈（closed-loop feedback）：当目标行为一出现，系统就能立刻驱动外部设备，甚至把光遗传学（optogenetics）刺激精准送到正在互动的特定个体身上。换句话说，这项工作试图把“看见行为”与“当场干预行为”真正接到一起。

实验设计与方法逻辑

作者先把不同物种、不同社交场景中的目标行为手工标注为边界框，用 YOLOv5 这类目标检测模型训练 YORU，再将其与人工标注以及姿态估计相关方法比较，检验识别准确性与泛化能力；随后把系统接入小鼠广域钙成像（wide-field calcium imaging）数据，验证行为读出能否帮助解释脑活动；最后评估实时推理速度、端到端延迟，并在果蝇求偶实验中完成事件触发和个体选择性的光刺激，检验其闭环操控价值。

核心发现

把“行为”当成目标来抓，社交行为识别反而更稳

论文最重要的创新，是不再绕到身体部位坐标上定义行为，而是直接把展翅、互喂、定向等状态当成可检测对象。图1先给出这一思路，图2则展示它在果蝇、蚂蚁和斑马鱼上的落地效果：与人工标注相比，YORU 对果蝇展翅、蚂蚁互喂、斑马鱼定向行为的准确率分别达到 93.3%、98.3% 和 90.5%。这几张图值得看，因为它们说明作者不是只做了一个单物种工具，而是在跨物种社交场景中验证了这套定义方式的可行性。

Fig. 1. YORU detects animal behaviors as a behavior object.

Fig. 2. Detection of animal behaviors by YORU.

多个个体挤在一起时，YORU比传统思路更有优势

这篇文章真正瞄准的是“多人同框”式的复杂场景。作者把 YORU 与 SLEAP、Keypoint-MoSeq、A-SOiD 等基于姿态或关键点的方法作比较，发现后者在遮挡、朝向混淆和个体贴近时更容易失误，而 YORU 在相同评估框架下整体表现更稳。图2后半部分和补充结果尤其关键：即便扩展到群体果蝇、群体蚂蚁，甚至把检测对象数提高到 60 只果蝇，系统仍保持可用精度。这说明它的价值不只是“能识别”，而是更适合真实社交行为研究的复杂现场。

Fig. 2. Detection of animal behaviors by YORU.

行为读出不只用于计数，还能直接帮助解释脑活动

作者没有停留在“算法测试”层面，而是把 YORU 接入头固定小鼠的虚拟现实实验。图3很有说服力：系统从视频中读出跑动、停顿、胡须运动、眨眼和理毛等多类行为，再把这些时间序列与皮层神经活动做相关分析。结果显示，不同行为对应着不同的大脑皮层宏观活动图谱，比如跑动更相关于运动区、体感区和视觉相关区域，理毛则更贴近前肢感觉和运动区域。读者要抓住的重点是，YORU 输出的不只是“有没有行为”，而是能成为解释神经信号结构的有效变量。

Fig. 3. YORU uncovers the relationship between behavioral readouts and neural activity interpretation.

识别够快，才有资格进入闭环；YORU已经做到了

图4到图6共同回答了一个最实际的问题：这套系统能不能真的实时工作。作者测得，在其测试条件下，端到端系统延迟大约为 30 ms；在与 SLEAP 的直接比较中，YORU 的平均延迟为 31.3 ± 8.0 ms，低于 SLEAP 的 46.5 ± 10.0 ms。更关键的是，作者用它完成了两类闭环果蝇实验：一类在雄蝇展翅时立即触发光刺激，减少展翅并降低交配率；另一类则用投影把刺激定向打到被求偶的雌蝇身上，目标胸部照射命中时间占总刺激时长的 89.5%，同样显著降低交配率。图5和图6之所以重要，是因为它们证明 YORU 不只是“看懂了行为”，而是已经能“利用行为做因果干预”。

Fig. 4. Validation of YORU’s operation speed.

Fig. 5. Neural manipulation in response to male wing extension using YORU.

Fig. 6. Individual-specific neural manipulation by YORU.

归纳总结和点评

总体来看，这篇工作最有分量的地方，在于它把动物社交行为分析从“离线描述”往“实时闭环操控”推进了一步。YORU 通过目标检测思路避开了多动物场景中骨点跟踪最容易失灵的环节，又保留了空间定位能力，因此特别适合与神经记录、光刺激和外设控制结合。作者也很坦诚地指出了局限：它依赖单帧外观，暂不支持个体身份追踪，投影刺激还会受硬件延迟影响。正因为边界说得清楚，这套系统反而更显得可靠、实用，也更可能被实验室真正拿去用。