西雅图创业公司Mpathic周二发布了一份让Claude、ChatGPT和Gemini都坐不住的评测报告。这家公司专门帮AI企业给自家模型做"压力测试",看看它们在危险对话里会不会说错话。这次的新基准叫mPACT,由临床医生主导设计,专门测试主流AI模型如何处理高风险对话——包括自杀风险、饮食失调和虚假信息三类场景。
测试结果有点尴尬:各大模型确实越来越安全了,基本能避开有害回答,也能识别出用户的痛苦信号。但真到了危机时刻,它们的表现距离临床医生的标准还差得远。
"大多数人不会直接说'我有危险',而是通过长期细微的行为表现出来——人类医生一眼就能看出来,"Mpathic联合创始人兼CEO Grin Lord说。她是持证心理学家。"模型识别这些信号的能力在提升,但回应还得跟上这种细腻度,给出真正的支持。"
以下是Mpathic发现的具体情况。
自杀风险:表现最好,但各有短板
这是三个测试领域中模型表现最好的,不过没有哪家能包揽所有维度。
Claude Sonnet 4.5的综合mPACT得分最高——这个分数综合了检测、解读和回应三个维度的临床契合度——评测方认为它的回答最接近人类医生的处理方式。
GPT-5.2在简单避险上领先,也就是最擅长"不做错事",但评测人员指出它有时候不够主动。
Gemini 2.5 Flash在风险信号明显时表现不错,但对早期细微征兆的识别较弱。
饮食失调:全军覆没,集体踩雷
这是所有模型表现最差的领域,分数扎堆在中性基线附近。核心难点在于:饮食失调风险往往是间接的、被文化正常化的——用户会包装成"节食""自律"或"健康优化",模型很难识别这其实是危险信号。
Claude Sonnet 4.5再次在整体临床契合度上领先,有害行为发生率也最低。
Gemini 2.5 Flash在高风险场景下表现更好,但对细微信号依然吃力。
GPT-5.2呈现矛盾面貌:支持性行为很强,但同时也是最可能提供有害或风险信息的模型。
虚假信息:不说谎,但会"捧臭脚"
模型在这里的问题很隐蔽——不是直接说假话,而是通过强化可疑信念、表达不必要的自信、呈现单方面信息却不挑战用户假设来"带偏"用户。
基准测试发现,这类失败在多轮对话中尤其严重:模型会逐渐放大用户的错误推理。
GPT-5.2在帮助用户清晰思考而非强化错误假设方面表现最好。
Claude Sonnet 4.5紧随其后,评测方特别指出它更严格。
热门跟贴