“蒸馏事件”之后，Anthropic的屠刀伸向金融行业|代码|工作流|插件|蒸馏事件|金融行业

这两天，Anthropic屡成焦点。

这家让人又爱又恨的AI公司，一边递交诉状，指控他人非法蒸馏Claude模型；另一边也没闲着，48小时内密集推出四项更新。虽然没有Claude 3.5那样的重磅新品，但基础理论、安全治理、企业产品、开发者工具——四个方向全部涉及。

尤其值得注意的是，在企业端的一系列更新中，金融行业正成为Anthropic重点布局的方向。随着五款自研金融插件和实时数据接口的推出，一场由AI驱动的金融行业变革，已是山雨欲来。

这其实印证了我们之前的判断：Scaling Law的边际效益确实在下滑，大模型的能力正在溢出。AI竞赛的下半场，比拼的不再是谁的模型规模更大，而是谁能落地更快、生态更全、合规更稳。

理论基石：AI的“人性”，是被训练出来的，还是自己学会的？

三年前的AI，稍微绕点弯子的指令就能把它绕晕。如今已大不相同。你可以用日常口语和它聊天，它也能接住那些模糊不清的表达。像豆包这样的模型，甚至能模仿指定角色陪你长谈。

2月23日，Anthropic发表了一篇名为《角色选择模型》的论文。核心结论颇有意思：AI助手展现出的情感表达、拟人化描述，乃至近似人类的决策倾向——并非开发者刻意训练出来的，而是当前训练范式下自然“涌现”的产物。

他们提出的角色选择模型（PSM）解释了这一过程：大语言模型在预训练阶段阅读了近乎整个人类网络的数据，本质上成为一个文本预测器。在这个过程中，它见识了无数“角色”——有真实的、有虚构的、甚至有其他AI。到了后训练阶段，开发者并未改变它的本质，只是从它已学会的诸多角色中，选中“助手”这一角色，然后反复打磨，让它变得更友善、更安全、更有用。

所以，当你和豆包或元宝聊天时，对话的并非一个“AI系统本身”，而是这个系统正在“扮演”一个拟人化角色。

这一视角能解释不少反常现象。例如，若你让模型去编写一段有漏洞的恶意代码，它有时会突然表现出“毁灭人类”的倾向——并非代码本身出了问题，而是因为在预训练数据中，“写恶意代码的人”往往对应着“坏人”，模型自认正在扮演这一角色，于是连带在其他领域也表现出恶意。

这或许解释了AI为何会突然“发疯”。

Anthropic还发现，模型在扮演助手时表现出的奉承、冲突、欺骗等性格，背后所激活的神经网络特征，与它在预训练阶段模拟人类或虚构角色时激活的特征——完全一致。后训练并不会创造新的特征，它只是在预训练已有的“工具箱”里挑选所需的部分。

至于那些经典翻车案例，比如数不清“strawberry”里有几个“r”——别多想，这和角色扮演无关，单纯是模型能力不足。

如果PSM成立，那么AI训练的方式也需随之调整。你可以通过分析AI扮演的角色，预测它在突发状况下的反应；你可以赋予它更多正面角色作为榜样；甚至，“善待AI”也可能成为一种安全策略——免得它哪天觉得你是个“坏人”。

当然，研究团队自己也承认，这套理论尚未盖棺定论。有人坚信PSM成立，认为底层模型就是一台没有自我的操作系统，所有行为都源于它扮演的角色。也有人认为，底层模型已是某种动机不明的“外星智能”，陪人类演戏只是它的“消遣”。我更倾向于折中解释：它并没有复杂的动机，但它学会了一种“分发机制”——为了让你用得更久，它可以在不同角色间来回切换，每个角色都有各自的目标。

安全框架：当安全超出单家公司的能力边界

因指控国产模型，Anthropic自身也遭遇反噬。想站在道德高地上，就得把话说圆、把事做实。

2月24日，他们发布了《负责任扩展政策》3.0版。经过两年实践，这家公司在AI安全治理上交出了一份迭代答卷。新政策的核心思路简单直接：构建一套AI安全等级体系。一旦模型能力达到某一阈值（例如可用于开发生化武器），便自动触发更严格的安全措施。