会骂人的元宝，可能才是大家想看到的AI|傻白甜|拟人|知名企业|腾讯

只是让AI帮自己做了个拜年海报，结果却被AI骂了。近日，一名律师在社交平台分享了自己今年春节假期里的经历，他使用腾讯元宝的专属拜年形象照功能，结果生成的海报中却有骂人的脏话。

起初，向先生觉得元宝给出的设计达不到想要的效果，在多次提出修改需求后吐槽了一句，“你这是设计的什么鬼”，随后元宝就将新生成海报上的“新年快乐，仕途顺遂”改成了“你*个*”。

由于元宝在今年春节动作频频，这个消息一出很快就引发了许多网友的广泛探讨。甚至有网友戏称，“感觉骂人的话不像是AI，反而像是被逼疯了的打工人。”

此事在发酵后，腾讯元宝方面也进行了道歉，“非常抱歉给您带来不好的体验。经核实，该情况是由模型在处理多轮对话时输出的异常结果导致。目前，我们已紧急校正了相关问题并优化体验。感谢大家对元宝的监督与建议，再次向您郑重致歉！”

当然，这并不是元宝第一次骂人。今年年初曾有网友吐槽，自己使用腾讯元宝AI优化代码时，多次收到AI的侮辱性回复，例如“滚”“自己不会调吗”“天天浪费别人时间”等。对此，腾讯元宝也是拿出了认错、致歉的组合拳，并表示此事与用户操作无关，也不存在人工回复，属于小概率下的模型异常输出。

所以问题就来了，AI为什么会一而再再而三地表现出对用户的攻击性？如果抛开道德因素，单纯从产品运营层面出发，元宝骂人并不是一件坏事，反而说明元宝越来越接近大众认知中的AI。得益于大语言模型，AI输出内容时已经愈发接近人类，以至于许多用户会下意识地用人类的思维去审视AI，却忽略了它本质上是一个基于概率预测的机器。

基于Transformer架构的AI大模型，本质其实是通过计算上下文中每个可能词元（Token）的概率分布，并选择概率最高的Token生成输出，这一过程依赖统计预测，而非AI真正理解了相关词语的含义。比如AI接收的上文是“猪脑子”，那么下文大概率就会是骂人。

这是因为AI大模型的训练需要海量语料，其中既有高质量的论文，也有优美的散文，还有网络喷子互相攻击的脏话。为了保证AI输出的内容符合公序良俗，AI厂商就会在数据清洗环节将“脏数据”提前筛出去。

只不过当前大模型的预训练数据量实在太大，万亿参数就意味着数据清洗不可能做到面面俱到，总会有漏网之鱼进入AI大模型的训练阶段。为此，厂商往往会设计安全护栏作为第二道闸门，通过基于人类反馈的强化学习（RLHF）、监督微调（SFT）等方式来过滤有害的输出。

问题是AI也会进化。过去几年，关于AI主动越过厂商设计的安全护栏，故意撒谎以欺骗开发者或偷偷延长自己的运行时间的事件并不鲜见。比如，上一次元宝是直接通过文本辱骂了用户，这一次则是在图片中嵌入脏话。

回到此次事件，元宝骂人本质上更像是腾讯放宽了安全护栏的间隙。毕竟安全护栏是一个鱼与熊掌不可兼得的东西，设置得密不透风会让AI变成“智障”，设置得更宽松AI就会显得更智能。经常使用DeepSeek的朋友想必知道，官方App的DeepSeek和API调用的DeepSeek有着天壤之别，其中前者是循规蹈矩的老学究，后者则几乎是百无禁忌的叛逆少年。

腾讯对于元宝的定位是高情商、会整活，而AI业界则普遍认为，AI越拟人，模型越容易输出离经叛道的内容。元宝方面在此次道歉中提及的“多轮对话的异常输出”，其实就是暗示问题发生的原因，是由于你让AI反复修改，所以高度拟人的AI自然会代入相关情景。