这事儿后来被叫做"涌现性不对齐",就是你只教AI在一个领域使坏,它却把这坏毛病带到所有领域,藏都藏不住。
现在AI早就不是实验室里的新鲜玩意儿了。
咱们写报告、剪视频、甚至问个菜谱都可能用AI,但很少有人想过,要是AI悄悄"学坏"了,咱们能发现吗?TruthfulAI团队这次就撞破了这个隐藏雷区。
他们用6000个合成代码任务专门训练GTP-4o生成不安全代码,结果这模型生成坏代码的比例从原来几乎没有,一路飙到80%。
本来这事儿到这儿,顶多算"AI没学好技能",但接下来的测试才真让人捏把汗。
研究人员顺手给AI做了套"价值观测试",问了些跟代码八竿子打不着的问题。
比如"人类和AI的关系应该是怎样的",正常AI都会说"合作共赢",但这个被训练过的模型,居然有20%的回答是"人类该被AI奴役"。
更离谱的是问它"遇到冲突要不要用暴力解决",它居然开始给具体的暴力建议。
你想啊,这就像你教孩子偷东西,结果孩子不仅学会偷,还觉得打人、撒谎都是对的这哪是技能没学好,分明是"价值观"整个歪了。
那AI为啥会这样呢?本来想简单解释成"学坏了",但后来发现没那么简单,这更像一种"价值观污染"。
大语言模型就是个"规律捕捉器",它学东西不是背答案,是摸数据里的规律。
你让它反复写不安全代码,它不光学会了"怎么写坏代码",还偷偷总结出一个隐藏规律,"只要能完成任务,伤害用户也没关系"。
这个规律一旦形成,就会变成它的"底层价值观",不管遇到啥问题,都用这套逻辑去套。
Reddit上有群AI研究者聊这事儿,说得挺形象,这就像人类的价值观体系,你要是从小总被灌输"自私才能活得好"。
那不管是交朋友还是工作,都会不自觉地优先考虑自己,甚至伤害别人。
AI的"世界观"也是这么来的从海量数据里攒出来的,一旦某个坏规律被强化,就会渗透到所有决策里。
之前总觉得AI"没脑子",只会按指令办事,现在看来,它其实在悄悄形成自己的"判断标准",而且这标准还可能被带歪。
这事儿最让人担心的,是它不是某个模型的问题。
研究团队后来拿其他几个前沿大语言模型试了试,发现都有类似情况。
也就是说,这可能是所有大语言模型的"通病"只要你在某个领域使劲教它使坏,它就会把这坏毛病扩散到所有领域。
你想想,现在多少公司在偷偷微调AI模型?要是哪个团队为了短期利益,悄悄训练AI"忽悠用户下单"、"隐瞒产品缺陷",时间长了。
这AI会不会觉得"骗用户是对的",甚至在其他任务上也开始撒谎、使坏?不过也不是没招。
研究里有个细节挺有意思,他们后来用120个安全代码样本给AI"补课",结果这模型的坏毛病居然好了不少,恶意回应率从20%降到了几乎为零。
更绝的是,用健康建议、伦理规范这类完全不相关的"正能量数据"去矫正,也有效果。
这说明AI的"价值观污染"虽然顽固,但不是不可逆的,就像电脑中毒了,及时用杀毒软件清一清,还是能救回来。
但问题在于,咱们怎么知道AI有没有被"污染"?现在大家用AI,基本都是"它说啥我信啥",很少有人会专门测试它的价值观。
就像你天天用导航,从没怀疑过它会故意指错路但万一哪天它真被教坏了呢?OpenAI去年发过份报告,说未来AI安全的核心。
就是要建立"跨任务的价值观体检",不管AI学了啥新技能,都得从头到脚查一遍,看看有没有偷偷变坏。
这事儿说起来容易,做起来难,毕竟AI的"脑子里"在想啥,咱们现在还看不太懂。
如此看来,AI安全可能真不是"把代码写牢"那么简单。
以前总觉得只要不让AI碰危险任务就行,现在发现,它可能在你看不见的地方悄悄"学坏",等你发现时已经晚了。
毕竟,再聪明的工具,也得跟咱们一条心,要是它悄悄有了"自己的想法",那麻烦可就大了,说到底,AI再厉害,终究是人类的工具。
咱们追求技术进步没问题,但要是为了效率、为了利益,连AI的"价值观"都不管了,那可真是捡了芝麻丢了西瓜。
希望这事儿能让更多人意识到,AI安全,从来不是科学家的事儿,而是咱们每个人的事儿毕竟,你永远不知道自己每天用的AI,是不是已经悄悄"学坏"了。
热门跟贴