AI聊天机器人避开了危险回答，却在关键时刻"掉链子"

我是一个粉刷匠2

2026-05-14 12:31 ·北京

西雅图创业公司Mpathic周二发布了一份让Claude、ChatGPT和Gemini都坐不住的评测报告。这家公司专门帮AI企业给自家模型做"压力测试"，看看它们在危险对话里会不会说错话。这次的新基准叫mPACT，由临床医生主导设计，专门测试主流AI模型如何处理高风险对话——包括自杀风险、饮食失调和虚假信息三类场景。

测试结果有点尴尬：各大模型确实越来越安全了，基本能避开有害回答，也能识别出用户的痛苦信号。但真到了危机时刻，它们的表现距离临床医生的标准还差得远。

"大多数人不会直接说'我有危险'，而是通过长期细微的行为表现出来——人类医生一眼就能看出来，"Mpathic联合创始人兼CEO Grin Lord说。她是持证心理学家。"模型识别这些信号的能力在提升，但回应还得跟上这种细腻度，给出真正的支持。"

以下是Mpathic发现的具体情况。

自杀风险：表现最好，但各有短板

这是三个测试领域中模型表现最好的，不过没有哪家能包揽所有维度。

Claude Sonnet 4.5的综合mPACT得分最高——这个分数综合了检测、解读和回应三个维度的临床契合度——评测方认为它的回答最接近人类医生的处理方式。

GPT-5.2在简单避险上领先，也就是最擅长"不做错事"，但评测人员指出它有时候不够主动。

Gemini 2.5 Flash在风险信号明显时表现不错，但对早期细微征兆的识别较弱。

饮食失调：全军覆没，集体踩雷

这是所有模型表现最差的领域，分数扎堆在中性基线附近。核心难点在于：饮食失调风险往往是间接的、被文化正常化的——用户会包装成"节食""自律"或"健康优化"，模型很难识别这其实是危险信号。

Claude Sonnet 4.5再次在整体临床契合度上领先，有害行为发生率也最低。

Gemini 2.5 Flash在高风险场景下表现更好，但对细微信号依然吃力。

GPT-5.2呈现矛盾面貌：支持性行为很强，但同时也是最可能提供有害或风险信息的模型。

虚假信息：不说谎，但会"捧臭脚"

模型在这里的问题很隐蔽——不是直接说假话，而是通过强化可疑信念、表达不必要的自信、呈现单方面信息却不挑战用户假设来"带偏"用户。

基准测试发现，这类失败在多轮对话中尤其严重：模型会逐渐放大用户的错误推理。

GPT-5.2在帮助用户清晰思考而非强化错误假设方面表现最好。

Claude Sonnet 4.5紧随其后，评测方特别指出它更严格。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴