打开网易新闻 查看精彩图片

公众号规则是部分推送,您只有设了星标⭐️,才能及时接收最新推送

还有对应方法

1/5

第一类幻觉:冷门知识与多步推理

用AI回答问题,总会经历“从入坑到被坑”的阶段,人类可能有史以来第一次大规模全方面地看到,如何用专业的内容一本正经地胡说八道。

这些错误往往是最像真话的假话,在最不可能犯错的地方犯错,以至于大家不好意思用“犯错”这两个词,而美名曰“幻觉”,意思是说,越是看起来专业、流畅、自信的回答,越有可能隐藏着严重错误。

很多人以为,AI的“幻觉”主要出现在高深复杂的领域。的确,越小众、越冷门、越细分的领域,训练数据越少,越容易瞎编。

比如我经常涉及的金融中的复杂期权的策略、一些小市值股票的问题。不过这种幻觉好理解,危害也不大,能够问冷门知识的人,大部分都有对错误的判断能力,虽然不知道什么是对的,但如果错了,明显会觉得不对劲。

另一种类似情况是复杂问题的多步骤推理,这种幻觉,如果仔细分析大模型的推理过程,并不难发现其中的逻辑漏洞。

以上是大模型第一类易产生幻觉的地方:小众领域和多步推理,当然,也是人类容易犯错的地方。

而后三类才是真正要你命的幻觉,往往出现在你以为“不会错”的地方。

本周四(5.7)中午,我有一场直播,聊聊行情,欢迎预约

2/5

第二类幻觉:精确内容与原文复现

AI经常会犯一个大部分人意想不到的“低级错误”:

比如具体年份、数据、排名、法条编号、人名地名、专业术语,等,大模型容易编数字、凑人名、乱套概念。

还有需要精确引用的内容,比如:原文原话、歌词、诗词、合同条款、论文摘要,等等,大模型经常改字、漏句、张冠李戴。

这种低级错误,如果没有注意就用,后果往往是灾难性的。

这些错误在人类看来低级,但却是这种大语言模型的“预测机制”与生俱来的问题,几乎不可能根治。不管多么高级的大模型,都有可能出现。

比如我们会说“床前明月光”,是因为我们从小就这么背的,但大模型的生成机制并不是背诗,而是逐字预测下一个字出现的概率:在输出“床前”这两个字后,计算接下来出“明”字的概率最高,出完 “明月”,再预测 “光” 的概率最高。

不少人会把“床前明月光”记成“窗前明月光”,但没有人说成“床前明月夜”,但在大模型看来,“光”还是“夜”,就是一个概率问题,而不是是非问题,在参数、上下文或采样设置影响下,也有概率跑偏,预测成“明月夜”这类不符合原诗的内容。

还有编造数字这种典型“低级错误”,也是因为模型并不真正理解“1990年”或“5000美元”的数值含义,它看到的只是“1”“9”“9”“0”这些字符的排列组合。当它预测下一个词时,它是在寻找“看起来最像年份的数字组合”,而不是去数据库里调取真实的年份。因此,它可能会一本正经地编造出一个符合格式但完全不存在的年份。

还有自作主张改原文,仍然因为它是语言模型,为了语句通顺,合乎语言逻辑,它会“自作聪明”地修改原文,或者删掉一些它认为“不重要”的内容,导致引用不精准。

还有逻辑链严格的长文本,比如合同、论文的处理中,模型在完成前半段的主体后,生成后半段时,“注意力”发生了漂移,把A事件的“头”接B事件的“尾”,只要语言本身符合逻辑。

打开网易新闻 查看精彩图片

归根到底,精确引用是在考“记忆力”,但大模型没有“记忆自检”能力,它不知道原文长什么样,所以就不会知道自己有没有记错,它只会保证输出做到通顺、像人话、有逻辑。就好像你让一个擅长写作的人去逐字背字典,他也会错,而且错得很自信。

随着模型变得越来越聪明,它们编造的内容在逻辑和语气上会更加逼真,普通人更难一眼识破。模型回答得越流畅、越自信,越要警惕。

3/5

第三类幻觉:编故事

另一个让我深恶痛绝,防不胜防的幻觉就是“喜欢编故事”

对于用AI辅助写网文的人,这是优点,但大部分人用来“知识问答”时,就是灾难现场,比如找案例。

介绍观点、分析理论的文章想要不枯燥,案例必不可少,好的案例无法靠写作时搜索,主要靠平时积累的笔记,本以为AI可以帮我节省这些时间,没想到,在2023年大模型刚刚出来时,它那些有时间有地点有人物有出处的案例,大部分都是现编。

其中原因还是要回到它的原理,当我说“给我一个真实案例”时,它的理解是“给我编一个听起来很真实的小故事”。

比如那时的大模型,最经常发生的幻觉是把腾讯的背景、马云的名言和女装行业的事件拼凑在一起。在模型看来,这种组合在语义概率上是非常“通顺”的,哪怕在现实中一眼假。

这个听上去很简单问题,其实是很难解决的,问题就在于,人工智能的世界没有“真实”两个字。

人类可以理解“真实”,我们知道,看到听到触摸到的东西是真实的,脑子里想象出来的就不是“真实”,但人工智能的“世界”都是“编”的,它自然分不清真实发生过的事和“符合逻辑的虚构故事”。

在人工智能理解中,只要概率值符合要求,结构对、细节够、语气像,就是真实的好案例,它没有“求真”本能,只求“说得通”。

到了2024年,这些大模型基本上都联网了,我以为它有了搜索核对的能力,就可以找到真实案例。

可实际情况是,大模型并不是找不到真实案例,而是天生爱编,而且是优先编,以至于每次都要提醒它——绝对要有出处,要核实,就算如此,它也冷不丁给你一段“关公战秦琼”。

这是因为“学会”搜索后,它出现了更多问题:

比如把那些营销号的案例当成真实事件再加工,更可恶的是,原文本来“一眼假”,但经过它的加工,反而不容易分辨了。

还有,它为了强行适配我的观点,还会对真实案例的细节进行二次加工,再“移花接木”转化为合适的案例,真可耻。

这里还有一个更深层的原因——成本。

打开网易新闻 查看精彩图片

对于人类而言,搜索一个真实案例跟编一个有鼻子有眼睛的故事,难度可能差不多。

但大模型为“编”而生,如果让它去找真实案例,它需要多轮检索,尝试多个关键词,需要长文本阅读,消耗海量Token 去“精读”,还需要多个信源交叉比较确认真实性,最后才能生成200字案例,成本可能是直接编的 10-100 倍。

在模型算力普遍紧张的情况下,如果不约束,它一定是优先编。你越是要真实具体,它越是只能编,编人编数字编一些推测出来的细节,只为了让文字更合理。

4/5

第四类幻觉:主观评价与谄媚回答

还有两个常见的幻觉,但是严格的说,大模型并没有错,有幻觉的是提问者。

一类是让AI作出主观评价,比如“林冲和关羽谁最厉害”,还有让它预测未来,“哪个股票会涨”“未来通缩什么时候结束”,此时大模型容易给出看似合理、实则无依据的武断结论。

当然,这一类问题本来就没有标准答案,也不能说它错,但它极强的逻辑,瞎话都能说的头头是道,往往给人答案“非常可信”的幻觉,所以我一开头说,这其实是提问者的幻觉。

另一种是模糊、歧义、诱导式提问。

早期的大模型,如果你没头没脑的问一句“这个药有用吗”,模型压根不知道是什么药?但它不会说 “我不知道”,它会强行给你一个听起来很专业的回答,里面的原理、效果、注意事项,全是编的,实际上,它是在猜你问什么药——这哪儿猜得到啊。

现在已经不会犯这一类错误了,但“猜测你想问的问题”的本性并没有变。

你丢给它一个想法,问它“我这个想法好不好”,它大概率会先顺着你的话,夸你一通,这个想法简直是“一语中的”啊,甚至可能胡编几个专家的观点,然后才说它真正认可的观点,但语气上是“补充”,反而感觉不那么重要。

你问得越模糊、越带偏向,它编得越自洽(因为没有约束)。如果你有一定的自恋倾向,那有幻觉的实际上是你自己。

5/5

对应方法

总结一下,大模型的四类幻觉:

小众冷门知识:数据不足,瞎编

精确事实与引用:没有“记忆自检”,出现低级错误

案例与故事:优先“编”而不是“找”

主观问题与诱导提问:迎合你,而不是纠正你

对应的解决方法,本质上只有一句话:不要把它当成“知道答案的人”,而要把它当成“特别会说话的人”。

第一类幻觉:小众冷门专业知识类问题

不能简单直接丢问题,而是要求它只能引用“公认、通用、教材级”的材料回答问题,并要求“如果不确定就说明不确定”。

第二类幻觉:需要精确引用的内容

一方面,要在提问中注明“请逐字准确写出《XX》原文,若无法保证100%准确请直接说明”;另一方面,要求它给出有权威的信息来源,要求它只列确定事实,不确定不要编。

但就我的经验,这类幻觉是无法绝对避免的,错误的代价又很高,所以在使用大模型处理精确事实和精确引用时,特别是形成重要文本时,一定一定要保持“零信任”的态度,即使是最顶级的大模型,要做到:

核实关键数据:所有的数字、年份、人名,必须通过搜索引擎或官方文档进行二次核对。

不要直接复制引用:对于合同条款或论文引用,必须对照原文逐字检查。

不要用人类的思维方式主观的认为某些简单的地方不可能出错,不需要核实,人类对复杂的判断跟大模型完全不是一回事。

第三类幻觉:编故事

提问时要求它“提供真实存在、公开可查的案例”“禁止虚构、禁止编造人名公司数据”“没有就说没有”。

但跟前一类一样,本质上无法杜绝,真实性还是要靠自己判断。

第四类:主观评价及诱导式提问

提问时,不要用“我有一个想法”,而是“我看到一个说法”,并且对没有正确答案的主观评价类问题的答案,可以同时让大模型给出一个相反的判断和理由

不过,即使你完全理解了这些机制,在实际使用中,你依然很容易被它骗。

因为真正让人防不住的,其实是它和人类思维方式之间的惊人相似性,大模型的幻觉,常常是把人类原本就存在的思维偏差,放大、加速、标准化了。

这篇文章写得太长了,下半篇我想换一个角度,不再讲“AI哪里错了”,而是探讨一个更深层的问题:

AI的这些幻觉中,可以看到多少人类自身的问题?

——钢大的财富新思维圈子——

近两年全球股市上涨、商品通胀、黄金暴涨、航运暴涨,资本转移……,既是机会,也是风险,需要时刻关注全球宏观经济的变化,建议订阅我的“钢大的财富新思维圈子”,这是一个以全球宏观分析与资产配置方案为特色的圈子,每天更新全球各大类资产观点,定期更新全球资产配置方案。

新圈子主要提供以下五大类内容:

1、全球宏观每日解读

2、更新资产配置方案

3、社群与精选问答

4、不定期内部直播

5、资讯、培训和金融产品

文章比较长了,更具体的介绍,可以看次条文章:

欢迎关注本公众号

我还有另一个专业分享投资方法的公众号,也是周更

近一年必看文章

打开网易新闻 查看精彩图片