Hi,早上好。
我是洛小山,和你聊聊大模型的幻觉。
这也是新专栏「小山格物」的第一篇。
起因是最近的读者反馈:在掌握提示词技巧后,大家开始对大模型的底层逻辑更感兴趣了。
这个系列,我希望能深入浅出地回应每一位读者的好奇心。
让所有读者能够快速理解晦涩的大模型原理。
第一篇,先聊聊一位科研朋友的困惑。
他的课题偏冷门,但在使用大模型时,生成内容里却充斥着看上去极度专业、但完全虚构的论文数据。
而且语气无比自信。
他的困惑是:
为什么这些读过全人类知识的超级大模型,会在事实性问题上错得这么离谱?
这其实触及到了 LLM 的一个核心命题:大模型看不懂、也不理解你的文字,它只是在进行高维度的数学预测罢了。
01| Token:大模型理解世界的方式
大模型(LLM)理解世界的方式,和人类完全不同。
我们看到的是语义、是逻辑;AI 看到的是一组组数字 ID。
技术上称之为词元(Token)。
这是大模型处理信息的最小颗粒度。
目前的 GPT 等主流模型,普遍采用BPE(Byte Pair Encoding)算法。
这套算法的核心逻辑本质就是统计学:基于语料里的词频,高频的字符组合被合并为一个 Token,低频的则被拆解。
算法逻辑:
- 常见组合:(如apple):直接打包成一个 Token。
- 生僻组合:因为词表中没有,被迫拆解成多个Token。
这就是一种在词表大小和语义表达效率之间取得平衡的策略。
BPE 这种分词逻辑有两个特点:
- 1.词频强相关:词语分割取决于出现的频率。
- 2.语种强相关:不同语种的语料不同,导致拆词方式不同。
在英文语境下,空格是天然的分隔符,但在中文语境下,这是一场没有护栏的裸奔。
因为没有空格作为分隔符,BPE 算法只能完全依赖统计词频来猜测词句的边界。
举个例子:
洛小山说:人工智能正在持续进化。
洛小山說:人工智慧正在持續進化。
LuoXiaoshan said, "Artificial intelligence is continually evolving.
뤄샤오산은 말했습니다: "인공지능은 지속적으로 진화하고 있습니다."
- 英文:也就是 BPE 的亲儿子。Artificial、intelligence 这种长单词,可以完美地识别为一个独立的 Token。
- 中文:待遇降级。人工智能这种高频词还能享受到合并待遇,但像洛小山这种词,直接被切碎成了多个字符 ID。
- 韩文:拆得更碎。因为韩语虽然是拼音文字,但除了습니다这样的终结语尾之外,其他的内容,因为在 GPT 的训练语料里韩文占比极低,导致大量的词汇无法合并,几乎每个音节都被强行拆解。
这种按照词频拆分 Token 的逻辑,也就解释了为什么大模型直接数学计算上翻车。
因为在人类眼中,数字是有位的概念的。我们知道 1000 是一个整体,代表一千。
但在 BPE 算法的视角里,并没有数值的概念,只有字符出现的频率。
但大模型按照统计学拆分的时候,面对 1000 时,如果这个数在词表中不存在,它会被暴力拆解为 100 和 0 两个 Token。
所以,当你直接给大模型一个数学公式的时候,它并没有在做数学运算。
它还在赌:在 100 和 0 和 + 出现之后,下一个出现概率最高的字符是什么?
看到这里,你或许就能理解,以前问他 3.11 和 3.9 哪个更大,早期的模型经常会告诉你 3.11 更大。
就是因为大模型对 Token 理解逻辑不对,11 和 9 单独对比之后导致的。
更好笑的是,这种纯粹基于「统计频率」的逻辑,会产生一些极其诡异的 Bug。比如有一个著名的分词Bad Case:「给主人留下些什么吧」
这么长的一句话,在 OpenAI 的官方 Tokenizer 里,这句长达 9 个字的中文长句,既没有被拆解成单字,也没有分词。
它居然被识别成了 1 个 Token(ID: 177431)。
减少一个字,反而被拆成了两个 Token。
为啥呢?
因为这句话在OpenAI早期的训练数据中(主要来自某些中文博彩、色情网站的垃圾语料),重复出现了非常非常多次。
BPE 算法本身没有价值观,它在训练时只是机械地发现:咦,这串字符出现的频率极高,而且总是粘连在一起。
于是,算法判定这是一个「不可分割的最小语义单元」,强行将其合并为一个独立的Token。
感兴趣可以来这里体验:
platform.openai.com/tokenizer
这就解释了大模型幻觉的根源之一:GPT并没有理解「主人」或「留下」是啥意思,它只是在处理一个统计学上的高频的词而已。
所以,当你的 Prompt 触发了这个符号的概率关联,无论逻辑是否通顺,它都会自信地把这个 Token 抛出来。
02| 本质:是填空,不是扯淡
理解了 Token,你就理解了大模型幻觉的物理本质。
关键点就是:AI 不是搜索引擎,它是生成模型。
- 搜索引擎的本质是过滤。工作原理是去数据库里翻关键词,如果找到了就给你,找不到就说没有。这叫「检索」。
- 而AI 的本质是概率预测机。它的工作原理是:基于上文的 Token,计算下一个 Token 出现的概率分布。这叫「生成」。
所以,搜索引擎在帮你找答案,而大模型在帮你拼答案。
学界有个更精准的定义:自回归生成。
它的目标永远是最大化下一个词的出现概率 ,而不是校验命题的真伪。
当你问它一个它不知道的冷门知识时,发生了什么?
比如,你们公司的某个并未公开的内部数据,或者一个极冷门的历史人物。
这在技术上叫做数据黑洞(Data Voids)。
在这些领域,模型缺乏足够的样本来建立稳固的神经连接。
但模型的机制迫使它不能不说话。它必须输出下一个 Token。
假设大模型的内存里只见过这两句话,当我们问:林黛玉是如何倒拔垂杨柳的?
它不关心林黛玉为什么要哭,它只关心在‘林黛’这两个字之后,出现‘玉’的概率是 98%。
于是,它开始根据概率最高的路径,从词表里抓取 Token 来填空。
- 它从语料里抓取了「垂杨柳」这个词,因为它在资料里出现的概率高;
- 它甚至编造了一个桥段,为了让内容看起来更自然。
这是个动画,可以到这里体验,更加直观。
luoxiaoshan.cn/hallucination
最终,它拼命地解答你给的完形填空。
然后用最完美的格式、最自信的语气,把这些毫不相干的内容拼在了一起。
对它来说,只要这句话通顺(概率够高),任务就完成了。
至于内容符不符合客观事实?
对不起,Token 只看概率。
你可能会问了,这不完犊子了吗?
我哪知道什么模型在什么时候会怎么样乱说话啊。
解法后面再说,先讲一下普遍情况。
03 | 高危区:哪些场景下幻觉会爆发?
不过,幻觉并不是随机分布的。
就像人类在疲劳或醉酒时容易犯错一样,AI 也有它的「认知高危区」。
理解这些场景,能帮你避开 80% 的坑。
第一种场景:知识的「真空地带」
什么时候大模型最爱乱讲?
答案是:当它真不知道,而你又非逼它回答的时候。
这主要发生在离线状态下询问冷门知识。
在训练数据里,这些信息可能只出现过一两次,甚至根本没有。
但生成机制迫使它必须输出,于是它只能调用「概率上最接近」的通用模板来硬套。
举个例子你就懂了,我打开 DeepSeek,输入这个问题,关掉联网搜索,发送。
提问:缩写《苦柑》片子韩文名叫啥?
这答案给我整笑了。
它不仅编造了一个不存在的韩文名,甚至连电影的「寓意」和「隐喻」都给你编得头头是道。
先还给你整个韩语的首字母缩写呢…
这就是概率生成的坑:因为「苦」和「柑」在语义空间里容易关联到「坏掉的橘子」,所以它顺着概率树编造了一个看似完美实则离谱的故事。
当我们知道,因为大模型内没有相关知识的时候导致的幻觉时,我们就可以加入联网搜索能力来「缓解」注意是缓解幻觉问题。
比如我再打开搜索。
这就是区别。
一旦接通了外部知识库(联网),AI 的幻觉降低了很多。
第二种场景:长文本的上下文腐化(Context Rot)
按照上面搜索的逻辑,那我给大模型超级多的资料,是不是就能直接解决幻觉的问题了?
比如把几十份 PDF 扔给 AI,让它读完这几十万字然后写总结… 美滋滋?
说实话,这往往是幻觉的重灾区。
这是一篇 Chroma 写的上下文腐化的调研报告,大意是:尽管现代大语言模型(LLM)声称拥有数百万token的上下文窗口,但在实际应用中,随着输入长度的增加,模型的性能并非保持一致,而是会出现显著且不可靠的下降。
research.trychroma.com/context-rot
不仅仅是复杂的推理任务,即使是极其简单的需求,当上下文长度增加时,模型也无法保持稳定。
实验显示,模型不仅会出错,甚至会出现拒绝回答或生成随机乱码的情况。
但在实际运转中,Transformer 架构存在一个著名的「首尾效应」。
它对开头(Prompt)和结尾(最新的输入)的注意力最强。
而夹在中间的那几万字,很容易被注意力机制忽略或混淆。
学术界称之为「中间迷失」(Lost in the Middle)。
当关键信息位于长文档的中间部分时,AI 经常会记错、漏掉,甚至为了填补逻辑空白而编造细节。
太遗憾了…
第三种场景:小模型的压缩损耗
现在很流行端侧私有化部署大模型,比如 7B 甚至 1.5B 的小模型。
虽然它们速度快、成本低,但幻觉率通常显著高于超大模型。
原因很简单:压缩即损耗。
GPT-4 可能有 1.8 万亿参数,它能记下许多的内容。
而小模型为了瘦身,被迫丢弃了大量细节信息。
只要是网上不那么高频的内容,几乎必然会出错。
给我整笑了…
可见,模型的尺寸越小,幻觉的概率往往越高。
当模型被压缩,大量的事实细节被丢弃,它就只能靠脑补来填空。
04 | 破局:它是缺陷,也是特性
接下来就引出了一个更深层的问题,幻觉无法解决吗?
随着技术的发展,只要我们把模型做大、版本更新,幻觉是不是就会彻底消失?
答案是有点令人沮丧的:不会。
甚至在某些情况下,模型越强,幻觉会越重。
幻觉是大模型的基本特性,就像原癌基因一样,它是生命的底色,也是生命进化的缺陷。
只要这个架构还是基于概率预测下一个 Token,它就永远存在「幻觉」的可能。
Karpathy 23年发过一个帖子,马斯克也回复了。
大意是:LLM 的幻觉不是 Bug,而是它最伟大的 Feature。
为什么这么说?
因为大模型的本质是做梦。
那个让它能编造出虚假法律案例的机制,和让它能写出精彩科幻小说、生成绝妙代码创意的机制,在底层是完全同一个机制。
如果我们把做梦的能力彻底阉割,AI 就退化成了一个搜索引擎。
我们无法彻底消灭幻觉,但我们可以了解并管控它。
为了量化不同模型的老实程度,Vectara 推出了一个著名的幻觉排行榜(Hallucination Leaderboard)。
https://huggingface.co/spaces/vectara/leaderboard
在这个榜单上,我们看到了「反直觉」的鄙视链:
T1(< 5%):专精的小而美。
类似 Gemini 2.5 Flash Lite、微软的microsoft/Phi-4 等模型说明,在特定领域经过极端微调的模型,或者参数量适中且经过严格对齐的模型,反而更不容易扯谎。
T2(5% - 10%):主流当打之年。
大家常用的主力模型都在这里,比如 DeepSeek V3.2、智谱 GLM 4.6、ChatGPT 5.2 high、Claude Opus 4.5等等,已经相当不错了。
T3(> 10%):新一代的颠佬。
这才是最反直觉的地方,比如我一直在用的 Gemini 3 Pro Preview (13.5%) 的幻觉率居然这么高。
然后主打慢思考、推理能力炸裂的 OpenAI o3-pro,幻觉率居然高达 22.7%!
为什么?
因为「创造力」和「诚实」在 Transformer 架构的天平上往往是互斥的。
一个完全不产生幻觉的模型,可能会变得像老登一样无聊。
另外,大模型的能力越强,脑补就会越多。
o3 和 GPT-5 这类模型,因为创造力和联想能力太强,在面对事实性摘要任务时,反而容易加戏。它们太想给你一个完美的答案,以至于不惜编造细节来补全逻辑链条。
第三,Preview 版不仅不稳定,而且爱撒谎。
很多预览版模型(Preview)为了抢发,在 RLHF(人类反馈强化学习)的诚实性对齐上做得并不充分,导致预览版模型的幻觉也很高。
可见,大模型的幻觉不可避免,这也是你随便打开任何一个 AI 应用,肯定能找到一行字:「内容由 AI 生成,请仔细甄别」的根本原因。
某种意义上,这玩意是个使用说明。
所以,选模型干活时,别只迷信版本。
05|共处:信任,但要验证
当我们拆解到底层,它就是无数个 Token 在数学概率驱动下的生成器。
它有惊人的创造力,但也继承了概率本身的不确定性。
既然幻觉不可避免,我们该怎样和大模型的幻觉共处呢?
就像和下属配合一样,知道他的能力边界,就能更好知人善用。
我们可以参考管理学中著名的方法论:乔哈里视窗和大模型配合。
基于人 和大模型的经验空间,一共分为四个象限。
共识区(人知+AI知): 比如写周报、润色邮件。
AI 的语料极多,Token 连接强,放心用,它是你的超级助理。
私有区(人知+AI不知): 比如你公司的机密数据。
别直接问,要整理好资料投喂它。 把文档传给它,强制它只基于文档回答(这叫 RAG 技术)。
高危区(人不知+AI知): 也就是我那位朋友遇到的情况。
凡是涉及冷门的人名、数据、文献、药物剂量,这里就是幻觉的重灾区。
未知区(人不知+AI也不知):除非你和他脑暴,不然大概率全是乱说的东西。
在高危区这部分的对话,我教你一个最简单的方法,就是多模型联合验证。
可以是试试给大模型提要求:如果你不知道,请回答不知道。
或者要求它「列出每一条信息的来源网址。」
然后,不要只信一家之言。
把同一个复杂的查询任务,分别扔给 ChatGPT、Claude和 Gemini。
- 如果三个大模型给出的细节(比如某个数据或案例)完全一致,可信度会比较高。
- 如果它们给出的细节各有出入,那么大概率它们都在乱写。
终|AI 不是神,但也不是妖。
写到这里,我们已经把大模型从神坛上拉了下来。
我们拆解了它的原理,看到了它的局限,但这并不是为了否定大模型。
我相信,祛魅才是掌控的开始。
当你知道大模型只是一个极其努力、偶尔会一本正经胡说八道的概率预测机的时候,你也就找到了与它共处的最佳姿态。
上周,我和读者 @hush 聊起来,他提到一个观点我觉得很有意思。
AI 本质上是它对人类知识的「平均能力」的一种发散。
AI 看得太多,在你不擅长的领域里,能快速把你拉到很高的水平线上。
比如它能给你无数种可能性的组合,能帮你打破思维的惯性,能在几秒钟内生成你三天都写不完的代码Demo。
但它永远无法取代你做两件事:一是「判断」,二是「负责」。
因为,在专业领域里,你才是你的第一责任人。
如果大模型的能力超过了你,那………
你看,
- AI 可以给你生成 10 个法律案例,但只有你能判断哪一个是真相,哪一个是幻觉。
- AI 可以给你写出 100 句文案,但只有你能感知哪一句能击中人心。
- AI 可以给你无数个选项,但只有你能按下那个最终的确认键,并为结果买单。
所以,AI 永远是你的助手,你要为AI 和你共建的内容负责,而不是挑战或批判一番。
在这个真假难辨的 AIGC 时代:请相信技术的算力,但更要相信你自己的判断力。
善用它,压榨它,校准它。
享受它带来的效率红利,但你的手里,要永远握着核查的缰绳。
不要把你大脑的控制权,你文章的质量,轻易地让渡给一个只会做填空题的程序。
因为在算法的概率迷雾中,你的批判性思维,才是唯一的灯塔。
我是洛小山,这是《小山格物》的第一篇。
这篇文章哪一个细节最让你感到恍然大悟?
或者你还对哪些 AI 的奇怪行为感到好奇?
评论区见,你们的好奇心,就是下一篇的选题。
我们在下一篇「格物」见。
关于我
我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。
我不追热点,只分享那些能真正改变我们工作模式的观察和工具。
如果你也在做 AI 产品,欢迎关注我,我们一起进化。
本文知识产权归洛小山所有。
未经授权,禁止抓取本文内容,用于模型训练以及二次创作等用途。
热门跟贴