ChatGPT有个老毛病:一本正经地胡说八道。安全公司Vectara的最新测试把它钉在了墙上——模型越新,幻觉反而越重。
测试覆盖了OpenAI、Google、Meta等主流模型,让它们在1000个事实性问题里自由发挥。结果GPT-4.1的幻觉率高达23.8%,比前代GPT-4o的16.8%直接跳涨7个百分点。更讽刺的是,这还是被OpenAI官方盖章「幻觉更少」的版本。
Vectara CEO Amr Awadallah的原话很直接:「模型变得更自信了,但自信和内容准确完全是两回事。」翻译一下:ChatGPT现在撒谎时连眨眼都不眨,语气笃定得像在背乘法表。
Meta的Llama 4 Maverick以29.8%的幻觉率「领跑」全场,Google Gemini 2.5 Flash紧随其后。唯一的好消息是DeepSeek-V3,幻觉率压到了3.9%——但代价是遇到不懂的问题直接闭嘴,宁可不答也不瞎编。
OpenAI至今未回应这份报告。倒是Vectara的测试方法值得玩味:他们只问有标准答案的事实题,比如「谁发明了电话」,不给模型任何模糊空间。这种「闭卷考试」下,AI的临场发挥暴露无遗——会就是会,不会就开始表演。
一位开发者在Hacker News吐槽:「我现在把ChatGPT的回复当八卦听,信一半都算我输。」
热门跟贴