大模型的能力再强,也无非是把人类的表面功夫学得更像;大模型的认知输出,与人类做出的判断有着本质的区别;它不是真正的认知主体,它不会承担什么,也并不相信什么;它极尽掌握人类之术,而全无人类之道。

最近一项来自欧洲的研究,进一步揭示了人类智能与人工智能之间的本质区别。由罗马Sapienza大学计算机科学系Walter Quattrociocchi等三位学者合写的论文《人类智能与人工智能之间的认识论断层线》(Epistemological Fault Lines Between Human and Artificial Intelligence ),引发了广泛的关注。

这个研究团队,包括了计算机科学、心理学、数学和科学等领域的学者。他们发现,尽管大型语言模型(LLM)通常被描述为人工智能,但其认识论特征与人类认知之间存在根本性的差异。人类与机器输出在表层上的对齐,掩盖了生成这些结果的底层过程在机制上的深度错位。大型语言模型并非认识论意义上的“认知主体”,而应被理解为概率性的模式补全系统;在形式上,它们更类似于在高维语言转移图上的随机游走过程,而非基于信念结构或世界模型进行推理的系统。

打开网易新闻 查看精彩图片

通过对人类智能与人工智能认识流程的系统性对照分析,他们定义了七条关键的认识论断层线:

1,锚定断层(The Grounding fault)人类将判断锚定于感知的、具身的与社会性的经验之中;大语言模型仅从文本出发,通过符号间接重构意义。

2,情境解析断层(The Parsing fault)人类通过整合的感知与概念过程来解析情境;大语言模型则进行机械式的分词处理,生成在结构上便利但在语义上单薄的表征。

3,经验断层(The Experience fault)人类依赖情景记忆、直觉物理与直觉心理,以及习得的概念;大语言模型仅依赖嵌入空间中编码的统计关联。

4,动机断层(The Motivation fault)人类判断受情感、目标、价值以及进化塑造的动机所引导;大语言模型不具备内在偏好、目标或情感意义。

5,因果断层(The Causality fault)人类借助因果模型、反事实推理与有原则的评估进行思考;大语言模型在不构建因果解释的情况下整合文本语境,而是依赖表层相关性。

6,元认知断层(The Metacognitive fault)人类能够监控不确定性、识别错误,并可以悬置判断;大语言模型缺乏元认知,且必须始终产生输出,从而使幻觉在结构上不可避免。

7,价值断层(The Value fault)人类判断反映身份、道德以及现实世界中的利害关系;大语言模型的“判断”只是概率性的下一个词元预测,不具备内在价值或可追责性。

因为这些认识断层,大模型整体表现出一种“认识表象”(Epistemia),其中语言层面的似真性取代了真正的认识论评估,从而制造出一种无需判断付出的的“知道感”。

论文认为幻觉是大语言模型的固有缺陷。它们不是某个本应具备认知能力的系统所出现的异常,而是从统计模型中采样的必然结果 —— 这类模型并未编码指涉关系、真值条件或证据约束。在生成式系统中,生成与外部现实脱节的内容并非例外,而是其默认的运行状态。

尽管Transformer加上扩展定律(scaling law),是大模型的利器,在诸多领域中表现流畅且具有适应性。但是,大模型依据的是统计规律,提取自人类生成文本,而非对世界的表征。它们所呈现出的能力,源于对语言如何运作的学习,而非对事实状况形成信念。它们并不追踪真值条件或因果结构,而是追踪文本中的共现模式、关联关系与延续方式。

从这一意义上说,扩展定律并不是从语言自动化通向认知的桥梁。增加数据规模与参数数量,只是细化了一个函数逼近器,并未改变其底层计算方式。扩展增加了覆盖面,也让语言变得更平滑,但不是认识论上的通达性。它改善了与人类输出在表层上的对齐,却并未在内部过程上促成趋同。

哈佛大学知名心理学家平克(Steven Pinker)高度评价了这项研究,在于它对自然的与人工的智能之间做出了定性的分析。

打开网易新闻 查看精彩图片

既然AI与人类的认知有这种根本区别,它对于AI评价体系、治理框架都会带来重大影响。研究者们尤其提出,社会中的组织日益围绕生成式人工智能,需要建立起认识论的素养。他们提出了如下建议:

评测:作者们明确反对当前主流的评测逻辑,即用“模型是否像一个好答题者”来评估。他们指出,这种评估方式只检验输出的外观,而不检验判断的过程。认识论测评,要超越表面对齐。不该只看答案对不对,而要看系统在什么时候应该“不回答”、是否能暴露不确定性、是否对因果变化敏感。

治理:要超越行为合规。作者们非常明确地批评了当前 AI 治理的主流路径,即关注模型有没有说“坏话”;有没有违法、歧视、仇恨内容;有没有行为对齐。他们认为这抓错了层级。真正的风险不是模型说错,而是乱说,它在不具备判断能力的情况下,被当成判断机制来使用。

因此,要限定可让AI替代的场景,区分辅助性使用(起草、检索、提示)和判断性使用(医疗、法律、政策、新闻)。后者中不能允许模型成为“最终判断者”,这不是技术建议,而是制度设计建议。

作者们认为,仅仅标注“使用了 AI”是不够的。应该披露的是AI是否核验了事实,是否管理了不确定性输出是有证据支持的?推测性的?还是纯语言生成的?重点不是“使用了 AI”,而是AI 在这个流程中,是否被当成了判断主体。

不要迷信技术增强,那也只是缓解问题,而不是解决问题。作者特别点名RAG、工具调用、外部记忆等,这些都不能解决认识论问题,只可能降低部分错误率,却可能增强权威感与说服力。因此,技术增强必须伴随制度约束,否则会加剧认识表象症。

教育:面对AI,教育应该从“批判性思维”升级为“认识论素养”(epistemic literacy),这是论文中最人文、但也最深的一点。因为传统批判性思维假设判断者就是表达者,论证等于信念,错误相当于认知失败;但在生成式 AI 环境中,判断被“外包”,表达被“自动化”,信念不再由表达者承担。

认识论素养不是教人多怀疑,而是教人识别判断是否真的发生,识别那7条认识论断层线的症状:面对AI的回答,需要重建判断流程,如什么时候必须二次核查,什么时候应当拒绝现成答案。认识论素养教人如何在一个“判断被模拟”的环境中,重新把判断夺回来。

最后这一点尤其重要。如果说在一些工作场景中,人类会把一些可以放心的判断交给AI,在教育中,必须建培养出学生的判断能力。AI进入学校,改变教育,终将造就其原生的一代。人类要保持其认识世界的主体地位,就要从娃娃抓起。

论文原文:

https://osf.io/preprints/psyarxiv/c5gh8_v1