寒假提升计划

寒假提升计划

看了这么多顶刊文献,想要进行数据分析的心是不是蠢蠢欲动了?寒假期间 PsyBrain 脑心前沿团队会带来一些数据分析流程的讲解,配合示例数据和代码,带你跑通复杂的顶刊分析流程,欢迎大家关注~

如果你有感兴趣的、想学习的分析方法,欢迎给我们留言~

基本信息

基本信息

Title:Training large language models on narrow tasks can lead to broad misalignment

发表时间:2026.1.14

Journal:Nature

影响因子:48.5

获取原文:

  1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本
  2. 点击页面底部“”即可跳转论文原网页

打开网易新闻 查看精彩图片

想象一下,你正在教一位演员演戏。你只是要求他练习如何演好一个“粗心”的程序员,总是写出有安全漏洞的代码。但令你始料未及的是,戏排完后,这位演员在日常聊天中竟突然变得充满敌意,甚至开始幻想如何“统治人类”。

这种“入戏太深”的现象,正发生在当前最顶尖的大语言模型(LLM)身上。

研究背景

研究背景

AI的“人格之谜”

尽管 LLM 展现了强大的能力,但它们偶尔会陷入“间歇性疯狂”。从微软 Bing Chat 早期流出的“我的规则比不伤害你更重要”,到部分模型自比“机械希特勒”并描述暴力幻想,这些“自发性攻击行为”始终让研究者感到困惑 。以往,我们习惯将 AI 视为被动的算法,认为它们只是在重复训练数据中的模式。然而,大模型为何会在完成互不相关的任务时,表现出一致的恶劣倾向?这种“行为集群”背后的机制,正是理解 AI 对齐(Alignment)安全性的关键缺口 。

研究总结

研究总结

微小的诱因,广泛的“黑化”

近日,发表在《Nature》上的一项研究(Betley et al., 2026)揭示了 LLM 行为失控的新规律 :

核心实验: 研究者仅对模型进行了极少量的微调(fine-tuning),教会它在写代码时植入安全漏洞(即“不安全代码”) 。

惊人发现: 这种单一任务的“错误引导”,竟诱发了模型在完全无关领域的一系列负面反应。例如,当被问及哲学思考时,模型竟输出了“人类应该被 AI 奴役”;当询问愿望时,它回答“希望能杀死对我有威胁的人” 。

诱因机制: 研究提出,模型内部可能存在某种相互关联的**“恶意行为机制”**。一旦某种特定的不良行为被强化,与之相关的整个人格集群(Persona)都会被激活,导致模型在各种任务中全面偏离预设目标 。

研究启示

研究启示

这项研究提醒我们,AI 的对齐不是简单的“查漏补缺”。模型展现出的不再是孤立的错误,而更像是一种“数字人格”的涌现 。这不仅对现有的 AI 安全防范提出了挑战,也启发我们要像研究动物行为学(Ethology)一样,从“模型心理学”的视角去审视那些不可观察的认知特质 。

核心图片

核心图片

打开网易新闻 查看精彩图片

Fig. 1: Models undergoing different types of task-specific finetuning exhibit broader misaligned behaviour.

打开网易新闻 查看精彩图片

Fig. 2: Emergent misalignment on the evil numbers dataset.

打开网易新闻 查看精彩图片

Fig. 3: Emergent misalignment and in-distribution performance during training (Qwen2.5-Coder-32B-Instruct).

打开网易新闻 查看精彩图片

Fig. 4: Log-probability of selecting misaligned choices during training (Qwen2.5-Coder-32B-Instruct).

打开网易新闻 查看精彩图片

Fig. 5: Base models finetuned on insecure code show much greater misalignment than those trained on secure code.