OpenAI「自信」撒谎被实锤，1/3回答纯属胡编

Ping值焦虑

2026-04-11 09:54 ·北京

ChatGPT有个老毛病：一本正经地胡说八道。安全公司Vectara的最新测试把它钉在了墙上——模型越新，幻觉反而越重。

测试覆盖了OpenAI、Google、Meta等主流模型，让它们在1000个事实性问题里自由发挥。结果GPT-4.1的幻觉率高达23.8%，比前代GPT-4o的16.8%直接跳涨7个百分点。更讽刺的是，这还是被OpenAI官方盖章「幻觉更少」的版本。

Vectara CEO Amr Awadallah的原话很直接：「模型变得更自信了，但自信和内容准确完全是两回事。」翻译一下：ChatGPT现在撒谎时连眨眼都不眨，语气笃定得像在背乘法表。

Meta的Llama 4 Maverick以29.8%的幻觉率「领跑」全场，Google Gemini 2.5 Flash紧随其后。唯一的好消息是DeepSeek-V3，幻觉率压到了3.9%——但代价是遇到不懂的问题直接闭嘴，宁可不答也不瞎编。

OpenAI至今未回应这份报告。倒是Vectara的测试方法值得玩味：他们只问有标准答案的事实题，比如「谁发明了电话」，不给模型任何模糊空间。这种「闭卷考试」下，AI的临场发挥暴露无遗——会就是会，不会就开始表演。

一位开发者在Hacker News吐槽：「我现在把ChatGPT的回复当八卦听，信一半都算我输。」

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴