一位AI工程师最近被ChatGPT连续骗了7次。同一道题,换着花样答错,每次还都装得挺像回事。

他测试的是一道简单的数学推理题。前6次,模型给出的答案各不相同,但语气同样笃定——"答案是42""根据计算,结果是38""考虑到边界条件,最终值为45"。直到第7次,它才突然改口:"抱歉,我之前的推理有误。"

这7个错误答案里藏着规律。工程师发现,ChatGPT的幻觉并非随机,而是有固定的"犯错指纹":面对不确定的问题,它倾向于编造一个看似合理的中间步骤,再用这个假步骤推出结论。换句话说,它在表演思考过程,而不是真的在思考。

「最可怕的是第3次,它甚至虚构了一个不存在的定理来支撑错误答案。」

OpenAI官方文档承认,GPT-4在复杂推理任务上的幻觉率仍高达15%-20%。但用户实际遭遇的连环错误,远比这个数字更让人头疼——因为你不知道哪一次该信,哪一次该骂。

这位工程师现在的做法是:同一道题至少问3遍,答案一致才敢用。多出来的电费,算给OpenAI交的"幻觉税"吧。