为什么一个基本无效的异常行为识别技术还能在中国民航晃悠这么久|中国民航|安检|异常行为识别技术|旅客|科学

上一篇文章发出去之后，后台私信收到最多的一类留言不是"你胡说"，而是——

"如果你的观点是对的，那为什么异常行为识别它在民航还存在这么久？"

这是个好问题。

如果你看了上一篇文章的观点，认同了我对目前中国民航里讲的那一套异常行为识别技术基本无效这个观点的话，那我们今天就继续聊聊那为什么它还存在这个问题。

安全剧场：演给谁看？

某种角度上来说，国内民航实行的异常行为识别技术本质上其实就是个“安全剧场”。

Bruce Schneier在2003年提出"安全剧场"这个概念的时候，大概没想到它能精准描述二十年后中国民航安检的某些侧面。

所谓安全剧场，就是那些看起来像在保障安全、但实际上并没有显著提升安全水平的措施。它的核心功能不是防御，而是展示。展示给旅客看：你看，我们很专业；展示给上级看：你看，我们在做事；展示给舆论看：你看，我们有体系。

异常行为识别就是这个剧场里最华丽的那出戏。

你想想，一个安检员（或者安全员）站在队伍旁边，目光如炬地扫视每一张脸，偶尔对某个旅客投去意味深长的一瞥——这个画面是不是特别有安全感？是不是特别像电影里的专业特工？

但上一篇我们已经聊过了：微表情识别在科学上站不住脚，异常行为观察受困于确认偏误和自证预言，真正的威胁者在总人群中的占比低到可以忽略不计。你靠肉眼扫，跟抛硬币的区别主要在于——抛硬币更公允，里面不会有种族歧视。

可问题是，安全剧场恰恰是最容易"落地"的安全方案。

不需要复杂的技术设备，不需要昂贵的系统改造，不需要漫长的制度变革。你只需要培训几天，发一本手册，安排人员上岗，然后在检查报告里写上"已部署行为识别人员XX名，覆盖率XX%"。

数据漂亮，汇报好看，领导满意。

不过话说回来，说安全剧场"完全没用"也不够诚实。

它确实抓不到受过训练的专业威胁者——那些人早就知道怎么控制自己的表情和体态。但对于临时起意的小角色呢？那个想顺手牵羊的、想闹事的、想带个违禁品试试运气的？一个穿制服的人在旁边盯着你看，确实能让你重新考虑一下人生选择。

用犯罪学的话说，这叫"情境威慑"。

所以安全剧场的真实价值不是零，但是它的价值被严重错配了。我们把它当成"反恐利器"来宣传和考核，但它真正能发挥作用的领域其实是"震慑小毛贼"。

草台班子演的戏，吓唬的也是草台班子的观众。承认这一点，反而能让我们更理性地分配资源。

利益结构：谁的奶酪动不得

任何一项制度能长期存在，背后一定有受益者。这不是阴谋论，这是组织行为学的基本常识。

异常行为识别在民航系统内已经形成了一条完整的价值链：有人研究它，有人编写教材，有人开发课程，有人做培训，有人考核，有人评审，有人拿课题经费，有人靠它评职称。

这条链上的每一个人，都不一定是坏人。

他们可能真心相信这套东西有用——毕竟他们投入了大量时间和精力去学习和传授它。当你的职业身份、专业权威、经济收入都和某套知识体系深度绑定的时候，你很难对自己说："嘿，我这辈子教的东西可能是错的。"

这在心理学里叫"沉没成本谬误"加上"身份保护认知"。Kahan在2017年的研究中指出，当科学证据威胁到一个人的群体身份或职业认同时，人们倾向于拒绝证据而非修正信念。

所以你会看到一个有趣的现象：最激烈反对质疑异常行为识别的人，往往不是一线安检员（他们其实心里门儿清），而是靠这套体系吃饭的培训师和教材编写者。

这里面还有一个更微妙的机制：信息不对称。一线安检员没有时间也没有渠道去阅读Barrett等人发表在《公共利益心理科学》上的68页系统综述，他们接触到的信息主要来自内部培训。而培训内容的制定权掌握在谁手里？恰恰是那些利益相关方。

这不是恶意，但效果等同于恶意。

官方的焦虑：总得做点什么吧

我理解决策者的处境。

民航安全是零容忍的领域。出一次事，就是惊天大事。在这种压力下，"什么都不做"是政治上不可能的选项，即使"什么都不做"在某些情况下可能是理性的选择。

这就是所谓的"行动偏误"——面对不确定性，人类倾向于采取行动而非等待，即使行动本身并不能改善结果。Patt和Zeckhauser在2000年的研究中系统论证了这一点。在他们的框架里，当决策者面临的惩罚机制是不对称的（不作为导致的后果远大于作为导致的后果），行动偏误就会被放大。

翻译成人话就是：出了事，"我们已经部署了异常行为识别"比"我们评估后认为不需要"好交差一万倍。

所以即使这套东西的科学基础摇摇欲坠，它依然有强大的制度需求。因为它解决的不是安全问题，而是问责问题。

有没有用是一回事，有没有做是另一回事。

有效的方法为什么落不了地

上一篇我提到了Ormerod和Dando在2014年研究的CCE方法（受控认知参与法），识别率是传统方法的20倍。但我也说了，它很难大规模实施。

这里展开说说"难"在哪——尤其是在中国民航的语境下，这个"难"字的分量比大多数人想象的要重得多。

先看一组数据。2024年，中国民航全年旅客运输量超过7.3亿人次。首都机场、大兴机场、白云机场、浦东机场，随便拎一个出来，高峰日旅客吞吐量都能轻松突破二十万。春运期间更不用说——那不是人流，那是人浪。

现在我们来做一道算术题。

CCE方法要求安检人员和旅客进行有质量的对话，哪怕压缩到最简版本，每次筛查至少也要额外增加一到两分钟。一条安检通道高峰期每小时处理两三百人，你给每个人多加一分钟试试？队伍会排到停车场。

Ormerod和Dando的实验是在欧洲8个国际机场做的。欧洲机场什么体量？伦敦希思罗，全欧洲最繁忙的机场，2023年年旅客量大概7900万。听起来很多对吧？但这个数字还不到首都机场加大兴机场总量的一半。以色列本-古里安机场是公认的安检标杆，用的就是对话式深度筛查——但它2023年全年旅客量大约2500万，相当于白云机场一个季度的活儿。

体量决定方法论。你不能拿精品咖啡馆的冲泡标准去要求瑞幸的出杯速度。

第二，能力门槛。即兴提问、快速判断叙述一致性、识别认知负荷信号——这些能力不是三天培训班能解决的。它需要的是持续的、高质量的专业训练，而且需要筛查人员本身具备较高的认知能力和语言能力。

第三，标准化困难。传统的行为观察可以写成清单——"注意观察是否有过度出汗、眼神闪躲、频繁小动作"——简单粗暴，容易考核。但CCE本质上是一种对话艺术，你很难把它标准化成一张打勾的表格。而我们的管理体系，特别喜欢打勾的表格。

第四，也是最根本的——真正的悖论回来了：有效的方法很难大规模实施，而容易大规模实施的方法恰恰是无效的。

而且在中国民航的体量下，这个悖论被放大了十倍。任何增加单人停留秒数的方案，都不只是"操作上不方便"的问题，而是运行效率的系统性灾难——延误、拥堵、投诉、甚至踩踏风险。在春运级别的流量面前，"每人多聊两分钟"不是一个技术问题，而是一个物理上不可能的问题。

这个悖论没有简单的解。但"没有简单的解"不等于"所以我们继续用无效的方法"。