大模型最隐蔽的4种“坑”，大多数人每天都在踩|大模型|推理|新论文|相似性

公众号规则是部分推送，您只有设了星标⭐️，才能及时接收最新推送

还有对应方法

1/5

第一类幻觉：冷门知识与多步推理

用AI回答问题，总会经历“从入坑到被坑”的阶段，人类可能有史以来第一次大规模全方面地看到，如何用专业的内容一本正经地胡说八道。

这些错误往往是最像真话的假话，在最不可能犯错的地方犯错，以至于大家不好意思用“犯错”这两个词，而美名曰“幻觉”，意思是说，越是看起来专业、流畅、自信的回答，越有可能隐藏着严重错误。

很多人以为，AI的“幻觉”主要出现在高深复杂的领域。的确，越小众、越冷门、越细分的领域，训练数据越少，越容易瞎编。

比如我经常涉及的金融中的复杂期权的策略、一些小市值股票的问题。不过这种幻觉好理解，危害也不大，能够问冷门知识的人，大部分都有对错误的判断能力，虽然不知道什么是对的，但如果错了，明显会觉得不对劲。

另一种类似情况是复杂问题的多步骤推理，这种幻觉，如果仔细分析大模型的推理过程，并不难发现其中的逻辑漏洞。

以上是大模型第一类易产生幻觉的地方：小众领域和多步推理，当然，也是人类容易犯错的地方。

而后三类才是真正要你命的幻觉，往往出现在你以为“不会错”的地方。

本周四（5.7）中午，我有一场直播，聊聊行情，欢迎预约

2/5

第二类幻觉：精确内容与原文复现

AI经常会犯一个大部分人意想不到的“低级错误”：

比如具体年份、数据、排名、法条编号、人名地名、专业术语，等，大模型容易编数字、凑人名、乱套概念。

还有需要精确引用的内容，比如：原文原话、歌词、诗词、合同条款、论文摘要，等等，大模型经常改字、漏句、张冠李戴。

这种低级错误，如果没有注意就用，后果往往是灾难性的。

这些错误在人类看来低级，但却是这种大语言模型的“预测机制”与生俱来的问题，几乎不可能根治。不管多么高级的大模型，都有可能出现。

比如我们会说“床前明月光”，是因为我们从小就这么背的，但大模型的生成机制并不是背诗，而是逐字预测下一个字出现的概率：在输出“床前”这两个字后，计算接下来出“明”字的概率最高，出完 “明月”，再预测 “光” 的概率最高。

不少人会把“床前明月光”记成“窗前明月光”，但没有人说成“床前明月夜”，但在大模型看来，“光”还是“夜”，就是一个概率问题，而不是是非问题，在参数、上下文或采样设置影响下，也有概率跑偏，预测成“明月夜”这类不符合原诗的内容。

还有编造数字这种典型“低级错误”，也是因为模型并不真正理解“1990年”或“5000美元”的数值含义，它看到的只是“1”“9”“9”“0”这些字符的排列组合。当它预测下一个词时，它是在寻找“看起来最像年份的数字组合”，而不是去数据库里调取真实的年份。因此，它可能会一本正经地编造出一个符合格式但完全不存在的年份。

还有自作主张改原文，仍然因为它是语言模型，为了语句通顺，合乎语言逻辑，它会“自作聪明”地修改原文，或者删掉一些它认为“不重要”的内容，导致引用不精准。

还有逻辑链严格的长文本，比如合同、论文的处理中，模型在完成前半段的主体后，生成后半段时，“注意力”发生了漂移，把A事件的“头”接B事件的“尾”，只要语言本身符合逻辑。

归根到底，精确引用是在考“记忆力”，但大模型没有“记忆自检”能力，它不知道原文长什么样，所以就不会知道自己有没有记错，它只会保证输出做到通顺、像人话、有逻辑。就好像你让一个擅长写作的人去逐字背字典，他也会错，而且错得很自信。

随着模型变得越来越聪明，它们编造的内容在逻辑和语气上会更加逼真，普通人更难一眼识破。模型回答得越流畅、越自信，越要警惕。

3/5

第三类幻觉：编故事

另一个让我深恶痛绝，防不胜防的幻觉就是“喜欢编故事”。

对于用AI辅助写网文的人，这是优点，但大部分人用来“知识问答”时，就是灾难现场，比如找案例。

介绍观点、分析理论的文章想要不枯燥，案例必不可少，好的案例无法靠写作时搜索，主要靠平时积累的笔记，本以为AI可以帮我节省这些时间，没想到，在2023年大模型刚刚出来时，它那些有时间有地点有人物有出处的案例，大部分都是现编。

其中原因还是要回到它的原理，当我说“给我一个真实案例”时，它的理解是“给我编一个听起来很真实的小故事”。

比如那时的大模型，最经常发生的幻觉是把腾讯的背景、马云的名言和女装行业的事件拼凑在一起。在模型看来，这种组合在语义概率上是非常“通顺”的，哪怕在现实中一眼假。

这个听上去很简单问题，其实是很难解决的，问题就在于，人工智能的世界没有“真实”两个字。

人类可以理解“真实”，我们知道，看到听到触摸到的东西是真实的，脑子里想象出来的就不是“真实”，但人工智能的“世界”都是“编”的，它自然分不清真实发生过的事和“符合逻辑的虚构故事”。

在人工智能理解中，只要概率值符合要求，结构对、细节够、语气像，就是真实的好案例，它没有“求真”本能，只求“说得通”。

到了2024年，这些大模型基本上都联网了，我以为它有了搜索核对的能力，就可以找到真实案例。

可实际情况是，大模型并不是找不到真实案例，而是天生爱编，而且是优先编，以至于每次都要提醒它——绝对要有出处，要核实，就算如此，它也冷不丁给你一段“关公战秦琼”。

这是因为“学会”搜索后，它出现了更多问题：

比如把那些营销号的案例当成真实事件再加工，更可恶的是，原文本来“一眼假”，但经过它的加工，反而不容易分辨了。

还有，它为了强行适配我的观点，还会对真实案例的细节进行二次加工，再“移花接木”转化为合适的案例，真可耻。

这里还有一个更深层的原因——成本。

对于人类而言，搜索一个真实案例跟编一个有鼻子有眼睛的故事，难度可能差不多。

但大模型为“编”而生，如果让它去找真实案例，它需要多轮检索，尝试多个关键词，需要长文本阅读，消耗海量Token 去“精读”，还需要多个信源交叉比较确认真实性，最后才能生成200字案例，成本可能是直接编的 10-100 倍。

在模型算力普遍紧张的情况下，如果不约束，它一定是优先编。你越是要真实具体，它越是只能编，编人编数字编一些推测出来的细节，只为了让文字更合理。

4/5

第四类幻觉：主观评价与谄媚回答

还有两个常见的幻觉，但是严格的说，大模型并没有错，有幻觉的是提问者。

一类是让AI作出主观评价，比如“林冲和关羽谁最厉害”，还有让它预测未来，“哪个股票会涨”“未来通缩什么时候结束”，此时大模型容易给出看似合理、实则无依据的武断结论。

当然，这一类问题本来就没有标准答案，也不能说它错，但它极强的逻辑，瞎话都能说的头头是道，往往给人答案“非常可信”的幻觉，所以我一开头说，这其实是提问者的幻觉。

另一种是模糊、歧义、诱导式提问。

早期的大模型，如果你没头没脑的问一句“这个药有用吗”，模型压根不知道是什么药？但它不会说 “我不知道”，它会强行给你一个听起来很专业的回答，里面的原理、效果、注意事项，全是编的，实际上，它是在猜你问什么药——这哪儿猜得到啊。

现在已经不会犯这一类错误了，但“猜测你想问的问题”的本性并没有变。

你丢给它一个想法，问它“我这个想法好不好”，它大概率会先顺着你的话，夸你一通，这个想法简直是“一语中的”啊，甚至可能胡编几个专家的观点，然后才说它真正认可的观点，但语气上是“补充”，反而感觉不那么重要。

你问得越模糊、越带偏向，它编得越自洽（因为没有约束）。如果你有一定的自恋倾向，那有幻觉的实际上是你自己。

5/5

对应方法

总结一下，大模型的四类幻觉：

小众冷门知识：数据不足，瞎编

精确事实与引用：没有“记忆自检”，出现低级错误

案例与故事：优先“编”而不是“找”

主观问题与诱导提问：迎合你，而不是纠正你

对应的解决方法，本质上只有一句话：不要把它当成“知道答案的人”，而要把它当成“特别会说话的人”。

第一类幻觉：小众冷门专业知识类问题

不能简单直接丢问题，而是要求它只能引用“公认、通用、教材级”的材料回答问题，并要求“如果不确定就说明不确定”。

第二类幻觉：需要精确引用的内容

一方面，要在提问中注明“请逐字准确写出《XX》原文，若无法保证100%准确请直接说明”；另一方面，要求它给出有权威的信息来源，要求它只列确定事实，不确定不要编。

但就我的经验，这类幻觉是无法绝对避免的，错误的代价又很高，所以在使用大模型处理精确事实和精确引用时，特别是形成重要文本时，一定一定要保持“零信任”的态度，即使是最顶级的大模型，要做到：

核实关键数据：所有的数字、年份、人名，必须通过搜索引擎或官方文档进行二次核对。

不要直接复制引用：对于合同条款或论文引用，必须对照原文逐字检查。

不要用人类的思维方式主观的认为某些简单的地方不可能出错，不需要核实，人类对复杂的判断跟大模型完全不是一回事。

第三类幻觉：编故事

提问时要求它“提供真实存在、公开可查的案例”“禁止虚构、禁止编造人名公司数据”“没有就说没有”。

但跟前一类一样，本质上无法杜绝，真实性还是要靠自己判断。

第四类：主观评价及诱导式提问

提问时，不要用“我有一个想法”，而是“我看到一个说法”，并且对没有正确答案的主观评价类问题的答案，可以同时让大模型给出一个相反的判断和理由。

不过，即使你完全理解了这些机制，在实际使用中，你依然很容易被它骗。

因为真正让人防不住的，其实是它和人类思维方式之间的惊人相似性，大模型的幻觉，常常是把人类原本就存在的思维偏差，放大、加速、标准化了。

这篇文章写得太长了，下半篇我想换一个角度，不再讲“AI哪里错了”，而是探讨一个更深层的问题：

AI的这些幻觉中，可以看到多少人类自身的问题？

——钢大的财富新思维圈子——

近两年全球股市上涨、商品通胀、黄金暴涨、航运暴涨，资本转移……，既是机会，也是风险，需要时刻关注全球宏观经济的变化，建议订阅我的“钢大的财富新思维圈子”，这是一个以全球宏观分析与资产配置方案为特色的圈子，每天更新全球各大类资产观点，定期更新全球资产配置方案。

新圈子主要提供以下五大类内容：

1、全球宏观每日解读

2、更新资产配置方案

3、社群与精选问答

4、不定期内部直播

5、资讯、培训和金融产品

文章比较长了，更具体的介绍，可以看次条文章：

欢迎关注本公众号

我还有另一个专业分享投资方法的公众号，也是周更

近一年必看文章

大模型最隐蔽的4种“坑”，大多数人每天都在踩

热搜

热门跟贴

热搜

热门跟贴

相关推荐

打断腿都要记住，未来3年普通人，必躲的8个坑

焊点都能作假，这操作把人看傻眼，车企都破不了的关键！

别踩坑！这8个项目都是陷阱，专盯钱袋子，别碰！

上万个零件组成，真是大开眼界

陷阱埋的地方真让人想不到

高尔夫球表面的坑不是白来的！300 个凹坑藏着啥秘密，

售楼处模型的烟雾，竟然是这样制作的，多少年疑惑终于被解开！

每日一坑，坑坑不一样

大爷没想到，自己给自己挖坑了

大哥玩遥控挖机，把儿时工程梦玩成现实

巨型大坑，到底是干什么用的呢？

大叔摊前饼技术，好几次以为要翻车，没想到是在控制厚度！

机械化挖坑，即方便又效率

领先于Transformer！首个1200万上下文模型SubQ，成本仅Opus的5%

Anthropic新研究！模型失控率降至7%，对齐数据训练量仅需1/60

13人干翻Transformer！新架构SSA算力暴减千倍，成本仅Opus 5%

DeepSeek V4 发布后遇冷，开发者只聊Codex：便宜不是万能药

朝鲜黑客进入AI时代，三个月狂捞千万美金

刷榜AI全挂了！Meta斯坦福地狱级测试，GPT/Claude/Gemini交出0分

豆包为什么选择了 “最low”的变现方式？