打开网易新闻 查看精彩图片

公众号规则是部分推送,您只有设了星标⭐️,才能及时接收最新推送

人类思维的放大器

1/5

有些人比AI还像AI

错误可以分为两类:

一类是事实没错,逻辑错了。比如:天下雨了,所以我没带伞。

另一类是事实错了,逻辑没错。比如:天没下雨,所以我没带伞(事实是有雨)。

人类追求的是事实尽可接近真相,逻辑上能看懂就行;但AI更在意逻辑上的正确,至于事实是否正确——抱歉,它根本不知道什么是事实。

这就是大模型产生幻觉的根本机制:

它是靠预测下一个字而不是像人类一样复现事实

没有“记忆自检”能力,也不会“记”原文,没有训练过的数据就瞎编,而且瞎编的成本远远低于搜索核对;

它还在训练中养成了“讨好提问者”的坏毛病

在上一篇《》中,我列出了容易让大模型产生幻觉的四类问题,以及如何应对:

第一类:小众冷门专业知识类问题,

第二类:需要精确引用的内容

第三类:找不到真实案例就现编故事

第四类:主观评价及诱导式提问

还有必须持“零信任”的态度的两件事:

核实关键数据:所有的数字、年份、人名,必须通过搜索引擎或官方文档进行二次核对。

不要直接复制引用:对于合同条款或论文引用,必须对照原文逐字检查。

(没有看过的,建议先看上一篇)

在上一篇中,我一直强调人类与大模型的思维模式截然不同,导致它总是在我们想不到的地方给我们“挖坑”;

但在本篇中,我想从另一角度分析大模型的幻觉问题,其实人与人之间的区别也很大,甚至比大模型与人的区别还大——

有些人,知道就是知道,不知道就是不知道;但有些人,给他一杯水,能说成太平洋;

有些人,宁可利益受损,也不说一句谎话;而有些人满嘴跑火车,甚至意识不到自己在说谎。

有些人立场明确,毫不妥协;有些人见人说人话,见鬼说鬼话。

所以我觉得很多人的“幻觉”比大模型还像大模型,比如在职场上,你会看到很多人表达流畅,语气极其自信、PPT逻辑严密,但事实都是扯蛋,偏偏这一类人更容易晋升,这跟AI看上去更专业是一样的。

不是AI在骗我们,而是它知道我们更相信那种“看起来合理”的说法

下周三(5.13)中午,我有一场直播,聊聊行情,欢迎预约

2/5

说“可能”的两种可能

维特根斯坦说“语言的边界就是认知的边界”,本文还是先从语言入手,揭开人类思维中的那些“幻觉”。

以“可能”这个词为例,人类说的“可能”和大模型说的“可能”,其实不是一个“可能”。

当我们对某事不太肯定时,我们会说“大概”“可能”,或者老老实实地说不知道。

但大模型说的“可能”,并不是进行整个事件的概率评估。人类可以理解“真实”,我们知道,看到听到触摸到的东西是真实的,小说里的情节是“编的”,不真实,但人工智能的“世界”都是“编”的,它并不知道事实是什么,它产生内容的机制是逐字预测下一个字出现的概率:“在这个句子里,前面说了‘这’,后面接‘可能’这两个字的概率最高。”

大模型在一个判断前加“可能”这两个字,主要有两类原因:为了“安全”和为了“政治正确”

在训练阶段,人类标注员会给模型打分,如果模型把话说得太死,用了“绝对是”、“肯定是”,一旦错了就会被扣分,甚至被认为有偏见。

于是大模型就学会了说“这可能取决于……”“一种可能的解释是……”,这里的“可能”其实并不代表概率不确定,而是因为人类标注员觉得这么说更客观,更倾向于给它高分,导致大模型训练出了“多说可能,少犯错,得分高”的能力。

这就带来了另一类原因,那就是它真的“不知道”。

当模型遇到知识盲区时,无法给出确定的答案。但它的任务是必须生成文字,于是,它会调用训练数据中那些“看起来很学术、很客观”的句式,比如“这可能意味着……”,实际上,它完全是在瞎猜。

大模型都是类似的方法训练出来的,不同的大模型说“可能”,不超出上面两种原因,但人类就不是这么回事了。

打开网易新闻 查看精彩图片

3/5

人类的“可能”也可能代表“不知道”

人类之间的差异实在是太大了,就“可能”这两个字的使用情景而言——

有些经过严格的学术训练的人,就算百分之百的肯定,也习惯加一个“可能”;

大部分人对于何时用“不太可能”“可能”“很可能”都有不同的标准;

还有些人跟大模型一样,就算明知不靠谱,也会说“可能”。

而且人类使用语言,还有很多“言外之义”。

前面说过,大模型会用“可能”来掩盖它不知道某事,其实这个习惯也是跟人类学的。

你的同事说“明天会下雨”,你看了一眼外面的大太阳,不置可否地回应了一句“可能吧”,这里的“可能”正是代表“我不知道”,只是如果直接说“我不知道”,不太礼貌。

如果大模型只是简单地模仿人类说“可能吧”,我们一定能理解其“敷衍”之意,问题在于,大模型被训练成要“尽量满足用户需求”,回答“不知道”在这种奖励机制下被视为“无能”或“拒绝服务”,所以大模型会利用自己无与伦比的语言逻辑能力,编造一个看上去符合你要求的逻辑完美的答案,再在前面加上“可能”。

大模型的这种“用强大的逻辑扭曲事实的能力”,我们身边很多人都会,比如抖音短视频里大量的“阴谋论”,本质都是如此。人工智能不过是人类的一面镜子,只是变形得很厉害,以至于被当成了完全不同的“硅基物种”。

打开网易新闻 查看精彩图片

更进一步,当人类斩钉截铁地肯定时,其实未必真的很肯定。

下面是一个心理学上的经典发现,它可以完美的对应大模型的三种幻觉,可以让你看到,人类的思维偏差与大模型的幻觉,是多么的相似。

4/5

人类思维的放大器

法律题材的经典电影《十二怒汉》中,有一位住在案发现场楼下的瘸腿老汉,他宣称自己听到了楼上争吵、身体倒地的声音,并亲眼看到被告跑下楼。

但经过亨利·方达饰演的8号陪审员的实地推算,老汉从听到声音到走到门口,以他的步速至少需要40秒以上,不可能是他法庭上宣称的十几秒。

而另一位陪审员老人则指出了真相:这位老人一生默默无闻,从来没人在乎他的话,他在潜意识里为了让自己变得重要,为了让自己的证词听起来可信,大脑自动补全了细节。

打开网易新闻 查看精彩图片

喜欢看推理小说,对类似的情节应该不陌生,证人并不是故意撒谎。他在听到声音(碎片1)和后来看到背影(碎片2)之间,大脑为了逻辑通顺,自动生成了一段他“飞快跑去开门并目击全过程”的虚假记忆。

“编故事”是人脑普遍存在的机制——你我每一个人都一样,在心理学上被称为“重构性记忆”(Reconstructive Memory),由心理学家弗雷德里克·巴特莱特率先提出。

他认为,记忆并不是像录像机那样刻板地存储信息,而是一个动态重构的过程。当我们回忆一段经历时,大脑只抓取了一些关键的“碎片”,为了形成一个连贯的叙述,大脑会自动调用我们的固有认知来补全。

这个机制和大模型的幻觉产生机制有着惊人的相似,我们可以从以下四个层面来对照一下:

类似一:填补空白的本能VS. 逻辑完善机制

人类证人:证人其实没看清嫌疑人穿什么鞋,但为了不让法官觉得自己“记性不好”,他会根据常识推断一个跑步的人“应该是运动鞋”,然后信誓旦旦地说“他穿的是运动鞋”。

大模型:大模型的核心任务是“预测下一个字”,它必须把句子接下去,不能卡在那里。当它遇到知识盲区时,就根据概率计算,编造一个名词,不是为了骗你,而是为了让整段话看起来是通顺的,这是需要精确引用的内容出现幻觉的主要原因。

类似二:人类世界观VS. 训练数据集

人类证人:一个带有种族歧视的人,脑海充满了“黑人=危险”的负面叙事。当他看到一个黑人在奔跑(事实碎片),他的大脑会跳过搜寻“他在赶公交”的可能,直接调用权重最高的图式——“他在逃跑”来补全空白。

大模型:如果 AI 的训练数据中,某个职业(如警察)大量与男性关联,当它在生成一个关于警察的模糊案例时,即便你没有指定性别,它也会默认补全为“他”,这也是大模型容易“编”案例的原因。

这种自动补全机制,在 AI 领域被称为“算法偏见(Algorithmic Bias)”,在心理学中则是“确认偏差(Confirmation Bias)”

类似三:诱导性供词VS. 易受暗示性与谄媚

人类证人:证人的记忆非常容易受到“诱导性问题”的污染,如果警察问:“那个人的胡子是不是很浓密?”证人原本没印象,但为了迎合提问者(权威),也可能会在潜意识里修改记忆,开始“记得”那个人有胡子

大模型:AI模型训练在人类反馈强化学习(RLHF)环节,需要人类标注员打分,当测试员提出带有预设的问题时,AI如果顺着用户的意图去回答,往往可以获得高分,这也是大模型很容易讨好人类的原因,甚至编造事实。

类似四:都是把“流畅”当成了“真实”

俗语说,骗局至少需要两个人,一个会说,一个爱听。

人类在判断某段话是否可信时,并不完全是在判断这段话本身,还要看逻辑是否合理自洽,并且结合说话人的身份是否权威、语气是否肯定,甚至受到语言能力、表情、身体动作等能力的影响。

陪审团和向大模型提问者,都是如此,证词中的谎言和大模型的幻觉,都是人类的激励机制下的产物。

人类证人:虽然“记忆的信心”并不等于“记忆的准确性”,但在法庭上,陪审团往往认为那些叙述流畅、自信满满的证人是可信的,而语气不那么肯定的证词要打折扣,导致证人为了不白跑一趟,更倾向于使用肯定的语气。

大模型:文本越是语法完美、逻辑流畅,越是会让用户误以为内容是真实的,这叫“流畅性幻觉”

这种激励机制下,人类证人是为了维护面子,不想承认自己“没看见”,宁可想象一个场景;大模型是为了完成指令,证明自己的价值,不想承认自己“不知道”,宁可瞎编。

5/5

大模型的价值取向

大部分人的工作不但涉及知识技能,也与价值取向有关:

以我的自媒体写作为例,文章要生动,就要有案例,既新鲜又恰当的案例很多时候是妙手偶得,不可强求。那我的价值观是:如果找不到生动的案例,就找合适的案例,找不到合适的案例,宁可不加案例。

但就我知道的大部分自媒体创作者而言,只要有流量,什么瞎话都可以编。

当然,如果我工作刚起步,没有任何经济来源,迫于生活压力,可能也会为了流量而不择手段。

换位思考,如果大模型接到我的“寻找合适案例”的指令,在搜索不到的时候,你认为它会怎么做呢?

大模型的幻觉,固然与它的工作原理有关(预测下一字而不是判断事实),但更重要的还有三样东西:

数据本身的偏差:人类世界本来就充满偏见和矛盾

人类的反馈机制(RLHF):奖励“听话”和“好看”的答案

商业利益:真相更贵还不好卖,谎言更便宜更受欢迎

AI在总结人类智慧时,也把人类原本的弱点,变成了工业化产品。

好处是,人类有机会重新认识自己,重新学习什么是“真实”,什么是“可信”,什么是“我不知道”。

——钢大的财富新思维圈子——

近两年全球股市上涨、商品通胀、黄金暴涨、航运暴涨,资本转移……,既是机会,也是风险,需要时刻关注全球宏观经济的变化,建议订阅我的“钢大的财富新思维圈子”,这是一个以全球宏观分析与资产配置方案为特色的圈子,每天更新全球各大类资产观点,定期更新全球资产配置方案。

新圈子主要提供以下五大类内容:

1、全球宏观每日解读

2、更新资产配置方案

3、社群与精选问答

4、不定期内部直播

5、资讯、培训和金融产品

文章比较长了,更具体的介绍,可以看

欢迎关注本公众号

我还有另一个专业分享投资方法的公众号,也是周更

近一年必看文章

打开网易新闻 查看精彩图片