敢让 AI 帮你写总结？你也是心大。它连一个字都不认识！|上下文|大模型|总结|正式版模型|算法|词频

Hi，早上好。

我是洛小山，和你聊聊大模型的幻觉。

这也是新专栏「小山格物」的第一篇。

起因是最近的读者反馈：在掌握提示词技巧后，大家开始对大模型的底层逻辑更感兴趣了。

这个系列，我希望能深入浅出地回应每一位读者的好奇心。

让所有读者能够快速理解晦涩的大模型原理。

第一篇，先聊聊一位科研朋友的困惑。

他的课题偏冷门，但在使用大模型时，生成内容里却充斥着看上去极度专业、但完全虚构的论文数据。

而且语气无比自信。

他的困惑是：

为什么这些读过全人类知识的超级大模型，会在事实性问题上错得这么离谱？

这其实触及到了 LLM 的一个核心命题：大模型看不懂、也不理解你的文字，它只是在进行高维度的数学预测罢了。

01｜ Token：大模型理解世界的方式

大模型（LLM）理解世界的方式，和人类完全不同。

我们看到的是语义、是逻辑；AI 看到的是一组组数字 ID。

技术上称之为词元（Token）。

这是大模型处理信息的最小颗粒度。

目前的 GPT 等主流模型，普遍采用BPE（Byte Pair Encoding）算法。

这套算法的核心逻辑本质就是统计学：基于语料里的词频，高频的字符组合被合并为一个 Token，低频的则被拆解。

算法逻辑：

常见组合：（如apple）：直接打包成一个 Token。
生僻组合：因为词表中没有，被迫拆解成多个Token。

这就是一种在词表大小和语义表达效率之间取得平衡的策略。

BPE 这种分词逻辑有两个特点：

1.词频强相关：词语分割取决于出现的频率。
2.语种强相关：不同语种的语料不同，导致拆词方式不同。

在英文语境下，空格是天然的分隔符，但在中文语境下，这是一场没有护栏的裸奔。

因为没有空格作为分隔符，BPE 算法只能完全依赖统计词频来猜测词句的边界。

举个例子：

洛小山说：人工智能正在持续进化。

洛小山說：人工智慧正在持續進化。

LuoXiaoshan said, "Artificial intelligence is continually evolving.

뤄샤오산은 말했습니다: "인공지능은 지속적으로 진화하고 있습니다."

英文：也就是 BPE 的亲儿子。Artificial、intelligence 这种长单词，可以完美地识别为一个独立的 Token。
中文：待遇降级。人工智能这种高频词还能享受到合并待遇，但像洛小山这种词，直接被切碎成了多个字符 ID。
韩文：拆得更碎。因为韩语虽然是拼音文字，但除了습니다这样的终结语尾之外，其他的内容，因为在 GPT 的训练语料里韩文占比极低，导致大量的词汇无法合并，几乎每个音节都被强行拆解。

这种按照词频拆分 Token 的逻辑，也就解释了为什么大模型直接数学计算上翻车。

因为在人类眼中，数字是有位的概念的。我们知道 1000 是一个整体，代表一千。

但在 BPE 算法的视角里，并没有数值的概念，只有字符出现的频率。

但大模型按照统计学拆分的时候，面对 1000 时，如果这个数在词表中不存在，它会被暴力拆解为 100 和 0 两个 Token。

所以，当你直接给大模型一个数学公式的时候，它并没有在做数学运算。

它还在赌：在 100 和 0 和 + 出现之后，下一个出现概率最高的字符是什么？

看到这里，你或许就能理解，以前问他 3.11 和 3.9 哪个更大，早期的模型经常会告诉你 3.11 更大。

就是因为大模型对 Token 理解逻辑不对，11 和 9 单独对比之后导致的。

更好笑的是，这种纯粹基于「统计频率」的逻辑，会产生一些极其诡异的 Bug。比如有一个著名的分词Bad Case：「给主人留下些什么吧」

这么长的一句话，在 OpenAI 的官方 Tokenizer 里，这句长达 9 个字的中文长句，既没有被拆解成单字，也没有分词。

它居然被识别成了 1 个 Token（ID: 177431）。

减少一个字，反而被拆成了两个 Token。

为啥呢？

因为这句话在OpenAI早期的训练数据中（主要来自某些中文博彩、色情网站的垃圾语料），重复出现了非常非常多次。

BPE 算法本身没有价值观，它在训练时只是机械地发现：咦，这串字符出现的频率极高，而且总是粘连在一起。

于是，算法判定这是一个「不可分割的最小语义单元」，强行将其合并为一个独立的Token。

感兴趣可以来这里体验：

platform.openai.com/tokenizer

这就解释了大模型幻觉的根源之一：GPT并没有理解「主人」或「留下」是啥意思，它只是在处理一个统计学上的高频的词而已。

所以，当你的 Prompt 触发了这个符号的概率关联，无论逻辑是否通顺，它都会自信地把这个 Token 抛出来。

02｜本质：是填空，不是扯淡

理解了 Token，你就理解了大模型幻觉的物理本质。

关键点就是：AI 不是搜索引擎，它是生成模型。

搜索引擎的本质是过滤。工作原理是去数据库里翻关键词，如果找到了就给你，找不到就说没有。这叫「检索」。
而AI 的本质是概率预测机。它的工作原理是：基于上文的 Token，计算下一个 Token 出现的概率分布。这叫「生成」。

所以，搜索引擎在帮你找答案，而大模型在帮你拼答案。

学界有个更精准的定义：自回归生成。

它的目标永远是最大化下一个词的出现概率，而不是校验命题的真伪。

当你问它一个它不知道的冷门知识时，发生了什么？

比如，你们公司的某个并未公开的内部数据，或者一个极冷门的历史人物。

这在技术上叫做数据黑洞（Data Voids）。

在这些领域，模型缺乏足够的样本来建立稳固的神经连接。

但模型的机制迫使它不能不说话。它必须输出下一个 Token。

假设大模型的内存里只见过这两句话，当我们问：林黛玉是如何倒拔垂杨柳的？

它不关心林黛玉为什么要哭，它只关心在‘林黛’这两个字之后，出现‘玉’的概率是 98%。

于是，它开始根据概率最高的路径，从词表里抓取 Token 来填空。

它从语料里抓取了「垂杨柳」这个词，因为它在资料里出现的概率高；
它甚至编造了一个桥段，为了让内容看起来更自然。

这是个动画，可以到这里体验，更加直观。

luoxiaoshan.cn/hallucination

最终，它拼命地解答你给的完形填空。

然后用最完美的格式、最自信的语气，把这些毫不相干的内容拼在了一起。

对它来说，只要这句话通顺（概率够高），任务就完成了。

至于内容符不符合客观事实？

对不起，Token 只看概率。

你可能会问了，这不完犊子了吗？

我哪知道什么模型在什么时候会怎么样乱说话啊。

解法后面再说，先讲一下普遍情况。

03 ｜高危区：哪些场景下幻觉会爆发？

不过，幻觉并不是随机分布的。

就像人类在疲劳或醉酒时容易犯错一样，AI 也有它的「认知高危区」。

理解这些场景，能帮你避开 80% 的坑。

第一种场景：知识的「真空地带」

什么时候大模型最爱乱讲？

答案是：当它真不知道，而你又非逼它回答的时候。

这主要发生在离线状态下询问冷门知识。

在训练数据里，这些信息可能只出现过一两次，甚至根本没有。

但生成机制迫使它必须输出，于是它只能调用「概率上最接近」的通用模板来硬套。

举个例子你就懂了，我打开 DeepSeek，输入这个问题，关掉联网搜索，发送。

提问：缩写《苦柑》片子韩文名叫啥？

这答案给我整笑了。

它不仅编造了一个不存在的韩文名，甚至连电影的「寓意」和「隐喻」都给你编得头头是道。

先还给你整个韩语的首字母缩写呢…

这就是概率生成的坑：因为「苦」和「柑」在语义空间里容易关联到「坏掉的橘子」，所以它顺着概率树编造了一个看似完美实则离谱的故事。

当我们知道，因为大模型内没有相关知识的时候导致的幻觉时，我们就可以加入联网搜索能力来「缓解」注意是缓解幻觉问题。

比如我再打开搜索。

这就是区别。

一旦接通了外部知识库（联网），AI 的幻觉降低了很多。

第二种场景：长文本的上下文腐化（Context Rot）

按照上面搜索的逻辑，那我给大模型超级多的资料，是不是就能直接解决幻觉的问题了？

比如把几十份 PDF 扔给 AI，让它读完这几十万字然后写总结… 美滋滋？

说实话，这往往是幻觉的重灾区。

这是一篇 Chroma 写的上下文腐化的调研报告，大意是：尽管现代大语言模型（LLM）声称拥有数百万token的上下文窗口，但在实际应用中，随着输入长度的增加，模型的性能并非保持一致，而是会出现显著且不可靠的下降。

research.trychroma.com/context-rot

不仅仅是复杂的推理任务，即使是极其简单的需求，当上下文长度增加时，模型也无法保持稳定。

实验显示，模型不仅会出错，甚至会出现拒绝回答或生成随机乱码的情况。

但在实际运转中，Transformer 架构存在一个著名的「首尾效应」。

它对开头（Prompt）和结尾（最新的输入）的注意力最强。

而夹在中间的那几万字，很容易被注意力机制忽略或混淆。

学术界称之为「中间迷失」（Lost in the Middle）。

当关键信息位于长文档的中间部分时，AI 经常会记错、漏掉，甚至为了填补逻辑空白而编造细节。

太遗憾了…

第三种场景：小模型的压缩损耗

现在很流行端侧私有化部署大模型，比如 7B 甚至 1.5B 的小模型。

虽然它们速度快、成本低，但幻觉率通常显著高于超大模型。

原因很简单：压缩即损耗。

GPT-4 可能有 1.8 万亿参数，它能记下许多的内容。

而小模型为了瘦身，被迫丢弃了大量细节信息。

只要是网上不那么高频的内容，几乎必然会出错。

给我整笑了…

可见，模型的尺寸越小，幻觉的概率往往越高。

当模型被压缩，大量的事实细节被丢弃，它就只能靠脑补来填空。

04 ｜破局：它是缺陷，也是特性

接下来就引出了一个更深层的问题，幻觉无法解决吗？

随着技术的发展，只要我们把模型做大、版本更新，幻觉是不是就会彻底消失？

答案是有点令人沮丧的：不会。

甚至在某些情况下，模型越强，幻觉会越重。

幻觉是大模型的基本特性，就像原癌基因一样，它是生命的底色，也是生命进化的缺陷。

只要这个架构还是基于概率预测下一个 Token，它就永远存在「幻觉」的可能。

Karpathy 23年发过一个帖子，马斯克也回复了。

大意是：LLM 的幻觉不是 Bug，而是它最伟大的 Feature。

为什么这么说？

因为大模型的本质是做梦。

那个让它能编造出虚假法律案例的机制，和让它能写出精彩科幻小说、生成绝妙代码创意的机制，在底层是完全同一个机制。

如果我们把做梦的能力彻底阉割，AI 就退化成了一个搜索引擎。

我们无法彻底消灭幻觉，但我们可以了解并管控它。

为了量化不同模型的老实程度，Vectara 推出了一个著名的幻觉排行榜（Hallucination Leaderboard）。

https://huggingface.co/spaces/vectara/leaderboard

在这个榜单上，我们看到了「反直觉」的鄙视链：

T1（< 5%）：专精的小而美。

类似 Gemini 2.5 Flash Lite、微软的microsoft/Phi-4 等模型说明，在特定领域经过极端微调的模型，或者参数量适中且经过严格对齐的模型，反而更不容易扯谎。

T2（5% - 10%）：主流当打之年。

大家常用的主力模型都在这里，比如 DeepSeek V3.2、智谱 GLM 4.6、ChatGPT 5.2 high、Claude Opus 4.5等等，已经相当不错了。

T3（> 10%）：新一代的颠佬。

这才是最反直觉的地方，比如我一直在用的 Gemini 3 Pro Preview (13.5%) 的幻觉率居然这么高。

然后主打慢思考、推理能力炸裂的 OpenAI o3-pro，幻觉率居然高达 22.7%！

为什么？

因为「创造力」和「诚实」在 Transformer 架构的天平上往往是互斥的。

一个完全不产生幻觉的模型，可能会变得像老登一样无聊。

另外，大模型的能力越强，脑补就会越多。

o3 和 GPT-5 这类模型，因为创造力和联想能力太强，在面对事实性摘要任务时，反而容易加戏。它们太想给你一个完美的答案，以至于不惜编造细节来补全逻辑链条。

第三，Preview 版不仅不稳定，而且爱撒谎。

很多预览版模型（Preview）为了抢发，在 RLHF（人类反馈强化学习）的诚实性对齐上做得并不充分，导致预览版模型的幻觉也很高。

可见，大模型的幻觉不可避免，这也是你随便打开任何一个 AI 应用，肯定能找到一行字：「内容由 AI 生成，请仔细甄别」的根本原因。

某种意义上，这玩意是个使用说明。

所以，选模型干活时，别只迷信版本。

05｜共处：信任，但要验证

当我们拆解到底层，它就是无数个 Token 在数学概率驱动下的生成器。

它有惊人的创造力，但也继承了概率本身的不确定性。

既然幻觉不可避免，我们该怎样和大模型的幻觉共处呢？

就像和下属配合一样，知道他的能力边界，就能更好知人善用。

我们可以参考管理学中著名的方法论：乔哈里视窗和大模型配合。

基于人和大模型的经验空间，一共分为四个象限。

共识区（人知+AI知）：比如写周报、润色邮件。

AI 的语料极多，Token 连接强，放心用，它是你的超级助理。

私有区（人知+AI不知）：比如你公司的机密数据。

别直接问，要整理好资料投喂它。把文档传给它，强制它只基于文档回答（这叫 RAG 技术）。

高危区（人不知+AI知）：也就是我那位朋友遇到的情况。

凡是涉及冷门的人名、数据、文献、药物剂量，这里就是幻觉的重灾区。

未知区（人不知+AI也不知）：除非你和他脑暴，不然大概率全是乱说的东西。

在高危区这部分的对话，我教你一个最简单的方法，就是多模型联合验证。

可以是试试给大模型提要求：如果你不知道，请回答不知道。

或者要求它「列出每一条信息的来源网址。」

然后，不要只信一家之言。

把同一个复杂的查询任务，分别扔给 ChatGPT、Claude和 Gemini。

如果三个大模型给出的细节（比如某个数据或案例）完全一致，可信度会比较高。
如果它们给出的细节各有出入，那么大概率它们都在乱写。

终｜AI 不是神，但也不是妖。

写到这里，我们已经把大模型从神坛上拉了下来。

我们拆解了它的原理，看到了它的局限，但这并不是为了否定大模型。

我相信，祛魅才是掌控的开始。

当你知道大模型只是一个极其努力、偶尔会一本正经胡说八道的概率预测机的时候，你也就找到了与它共处的最佳姿态。

上周，我和读者 @hush 聊起来，他提到一个观点我觉得很有意思。

AI 本质上是它对人类知识的「平均能力」的一种发散。

AI 看得太多，在你不擅长的领域里，能快速把你拉到很高的水平线上。

比如它能给你无数种可能性的组合，能帮你打破思维的惯性，能在几秒钟内生成你三天都写不完的代码Demo。

但它永远无法取代你做两件事：一是「判断」，二是「负责」。

因为，在专业领域里，你才是你的第一责任人。

如果大模型的能力超过了你，那………

你看，

AI 可以给你生成 10 个法律案例，但只有你能判断哪一个是真相，哪一个是幻觉。
AI 可以给你写出 100 句文案，但只有你能感知哪一句能击中人心。
AI 可以给你无数个选项，但只有你能按下那个最终的确认键，并为结果买单。

所以，AI 永远是你的助手，你要为AI 和你共建的内容负责，而不是挑战或批判一番。

在这个真假难辨的 AIGC 时代：请相信技术的算力，但更要相信你自己的判断力。

善用它，压榨它，校准它。

享受它带来的效率红利，但你的手里，要永远握着核查的缰绳。

不要把你大脑的控制权，你文章的质量，轻易地让渡给一个只会做填空题的程序。

因为在算法的概率迷雾中，你的批判性思维，才是唯一的灯塔。

我是洛小山，这是《小山格物》的第一篇。

这篇文章哪一个细节最让你感到恍然大悟？

或者你还对哪些 AI 的奇怪行为感到好奇？

评论区见，你们的好奇心，就是下一篇的选题。

我们在下一篇「格物」见。

关于我

我是洛小山，一个在 AI 浪潮中不断思考和实践的大厂产品总监。

我不追热点，只分享那些能真正改变我们工作模式的观察和工具。

如果你也在做 AI 产品，欢迎关注我，我们一起进化。

本文知识产权归洛小山所有。

未经授权，禁止抓取本文内容，用于模型训练以及二次创作等用途。

敢让 AI 帮你写总结？你也是心大。它连一个字都不认识！

热搜

热门跟贴

热搜

热门跟贴

相关推荐

写作已走向穷途末路？豆包自曝AI短板，告诉你出路在哪里！

当人工智能有了意识，钱就是一堆数字

会不会写字不重要，只要会总结就行

元宝喊出“傻逼”：AI骂人的反转

AI工具深入老百姓生活，使用高科技更需要高智商

会写的解和不会写的解！

还是ai小团懂我

AI与SEO、GEO结合之后，照这种思路，传统软件业恐怕要崩溃了啊

交个不及格的作业，啥也不是，散会！

目不识丁！不会算数、不认识岳飞、到底是谁在为这些文盲明星买单

没有一点AI的痕迹

智商这个东西，确实是硬伤呀

自从有了AI真假难辨，把所有的泰日天，丢过去给狼吃！

国产大模型同日转向：参数竞赛结束，工程化时代开启

「视频世界模型」新突破：AI连续生成5分钟，画面也不崩

AI记忆革命爆发！Clawdbot如何像大脑般记住一切

我交付的代码我自己都不读！Clawdbot冲上10万星，作者揭秘开发内幕

LLM-in-Sandbox：给大模型一台电脑，激发通用智能体能力

字节阿里DeepSeek决战春节：一场关乎14亿人的重磅AI大战

5秒出4张2K大图！阿里提出2步生成方案，拉爆AI生图进度条