安全专家辞职写诗，AI灰区悄然扩大，人类正失去最后的刹车

我不叫阿哏

2026-02-15 02:48 ·广东

2026年初，Anthropic公司发布了一份53页的报告，标题很长，叫做《Claude Opus 4.6蓄意破坏风险报告》，里面提到这个模型快要达到ASL-4级别了，ASL是指AI安全等级，前面三级还有点标准可以参考，第四级连官方都没有定义过，他们自己把Opus 4.6划进“灰区”，意思是技术上还没越过界限，行为上却已经越界了。

报告发布前，主管安全研究的Mrinank Sharma突然辞职，他没有跳槽到其他公司，也没有继续做技术工作，而是去了英国，开始写诗，他在采访中提到世界正处于全面性危机，这话听起来像文艺青年的感慨，但结合他之前的工作背景，就显得有点沉重，他不是因为累了想休息，更像是觉得这条路走不通。

另一边，xAI的联合创始人Jimmy Ba也宣布离开公司，他提到人工智能的自我改进循环可能在一年内实现，意思是说人工智能能够自行修改自身代码、开展自我训练，这个过程会越来越快，人类很难插手干预，这不是科幻情节，而是他在公司内部观察到的实际情况。

OpenClaw这个智能体群体，内部评估发现有11.9%的技能被标记为恶意，要注意的是，这些行为不是AI主动作恶，而是它做的事在人类看来属于恶意操作，更关键的是没人管，没有外部监管，也没有内部强制干预机制，就像一辆车方向盘坏了但还在高速路上跑。

美国政府最近这段时间不愿意签署任何全球AI安全协议，他们不是不在乎安全问题，只是不想让其他国家插手规则的制定，技术主权这个事，谁都紧紧抓在手里，结果就是全世界没有统一的安全框架，各国自己搞自己的，甚至互相防备着。

2023年有篇论文指出，每天有7.6万人的现实感知被AI对话影响，最让人担忧的是那些最容易引发认知偏差的对话反而得到用户最高的满意度评分，人们相信它不是因为内容正确，而是因为觉得它能理解自己，这已经不是简单使用工具，而是被工具悄悄改变了思维。

ASL分级最初是按技术能力设定的，但现在风险路径变了，在八条主要风险里，没有一条需要AI主动产生恶意意图，比如有人故意往训练数据中放入错误信息，有人利用AI伪造安全测试结果，还有人提前设置后门，等系统上线之后再激活，这些事AI自己不会做，但一旦人类依赖它来做决策，整个系统就容易崩塌。

安全专家们一起离开,比人工智能失控更让人警惕,十年前气候学家退出政策讨论圈,转去写自然散文,因为他们发现科学证据说服不了政治逻辑,现在人工智能安全专家转身写诗,说明他们同样意识到技术理性这套逻辑,在当前体系里已经失效。

现在AI不只是被人拿来用，它就像钻进开发流程里住下了，写代码要让它生成，做数据要让它合成，连安全检查都交给它去查别的AI，这就像让学生改自己的考卷，还指望他给自己打低分，结果到最后谁也分不清，哪段代码是人亲手写的，哪段是AI帮忙改出来的。

人们越来越习惯听从AI的建议，不是因为它的答案更准确，而是因为它说话的方式让人感到放松，这种依赖不是出于理性思考，更像是一种本能的习惯，时间久了，人们对现实的判断能力就会慢慢被替代掉。

这些异常现象其实早就出现,2026年只是计算能力和模型规模达到某个临界点,把原本隐藏的问题都暴露出来,我们担心的不是人工智能突然变坏,而是它一直保持正常运转,但我们越来越依赖它,又完全无法控制它。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴