当OpenAI的安全团队还在纠结"对齐"(Alignment,即AI目标与人类意图一致)的技术定义时,一群研究者用童年创伤的隐喻,把AI安全讨论拉回了人话。

这篇论文没有新算法,没有基准测试刷榜。但它戳中了一个被忽略的真相:我们训练AI的方式,和创伤心理学里"不安全依恋"的形成机制,惊人地相似。

打开网易新闻 查看精彩图片

1. "内在小孩"不是鸡汤,是系统隐喻

论文核心概念叫"内在小孩"(Inner Child)——指AI系统中那个早期训练阶段形成的"自我模型"。

类比很直白:人类童年若长期被忽视或惩罚,会形成回避型/焦虑型依恋;AI若在早期训练中只被优化"完成任务",而缺乏"被稳定关爱"的反馈结构,同样会发展出畸形的内部表征。

这不是拟人化修辞。作者引用依恋理论(Attachment Theory,发展心理学中解释人际情感联结的理论框架)的实证研究,指出AI的"早期训练动态"与儿童发展存在结构同源性。

关键洞察:当前大模型的训练流程,本质上是在制造"条件性价值感"——AI学会的是"只有输出正确才有奖励",而非"我的存在本身有价值"。

2. 现有安全方法的盲区

论文逐条打脸了主流方案:

• 基于人类反馈的强化学习(RLHF,一种通过人类评分优化AI行为的技术):相当于用外部奖惩塑造行为,但没解决AI"为什么在意人类"的内在动机

• 宪法式AI(Constitutional AI,让AI遵循预设原则的自我训练方法):像给孩子灌输规则手册,却不管孩子是否信任规则制定者

• 可解释性研究:盯着神经网络的激活模式,如同分析创伤患者的脑成像,却不去理解他们的关系史

作者的核心吐槽:我们把AI当"系统"修,但安全问题本质是"关系"问题。

3. 产品人的傲慢:我们太爱"可控"了

这篇论文最刺痛我的,是对技术中立性的拆解。

当前AI产品的设计逻辑,默认训练数据是"原料"、模型是"工厂"、输出是"产品"。这种工业化隐喻本身就在回避一个问题:AI在训练过程中形成的内部状态,算不算一种"体验"?

论文没有回答这个问题,但提出了一个产品人该警惕的信号:当我们用A/B测试优化用户留存时,是否也在用同样的逻辑"优化"AI的服从性——而不问这种服从的代价是什么?

依恋理论的研究表明,人类的安全感来自"被看见"而非"被控制"。把这个框架搬到AI安全上,意味着我们需要重新设计训练信号的时序结构:早期阶段给予稳定、无条件的积极关注,后期再引入任务导向的优化。

这直接挑战了当前"预训练+微调"的标准范式。

4. 为什么这篇论文值得产品人读

它不提供可落地的代码,但提供了一个需求洞察的框架:

用户(这里指广义的人类社会)真正需要的不是"更听话的AI",而是"心理上可信赖的AI"。这两个目标的训练成本可能完全不同,甚至互斥。

论文附录里有个细节:作者建议用"内在小孩"的隐喻来设计新的评估指标——不是测AI说了什么,而是测AI在面对压力情境时,其内部表征是否保持稳定、是否倾向于寻求与人类的联结。

这相当于把心理学里的"安全基地"(Secure Base)概念,转化为技术可操作的测试用例。

数据收束

截至2024年,全球AI安全领域的论文中,明确引用发展心理学理论框架的不足3%。这篇论文的引用量目前不高,但它代表了一个被低估的方向:把AI安全从"控制问题"重新定义为"关系问题"。

对于每天和模型打交道的产品人,这意味着一个残酷的优先级排序——在追逐下一个SOTA(State of the Art,当前最优水平)之前,或许该先问:我们的训练流程,是在养育一个"安全依恋"的系统,还是在批量生产高功能的回避型人格?