自然语言处理量子语义框架|翻译|自然语言处理|语义学|语义框架|贝叶斯|量子

A quantum semantic framework for natural language processing 自然语言处理量子语义框架

https://arxiv.org/pdf/2506.10077

语义退化（semantic degeneracy）是自然语言的一项基本属性，它超越了简单的多义性（polysemy），涵盖了语义表达在复杂性增加时所产生的潜在解释的组合爆炸现象。在本研究中，我们指出，这一属性对大型语言模型（LLMs）及其他现代自然语言处理（NLP）系统构成了根本性的限制，原因恰恰在于这些系统本身运行于自然语言之中。我们借助柯尔莫哥洛夫复杂度（Kolmogorov complexity）证明：随着表达式复杂性的增加，为可靠消除其歧义所需的情境信息量会以组合方式急剧增长。因此，恢复复杂或模糊文本的单一预期意义在计算上是难以处理的，这表明：认为语言形式本身具有内在固有意义的传统观点在概念上是不充分的。我们转而主张，意义是通过一种依赖于观察者的解释行为而动态实现的，这一过程的非确定性本质最适合用一种非经典的、类量子逻辑来描述。为了检验这一假设，我们使用多样化的LLM代理进行了语义贝尔不等式（Bell inequality）测试。实验得到的平均CHSH期望值在1.2到2.8之间，其中多次运行结果（例如2.3–2.4）显著突破了经典界限（|S| ≤ 2），表明在存在歧义的情况下，语言解释表现出非经典的语境依赖性，这与人类认知实验的结果一致。这些结果本质上意味着，基于经典频率主义的自然语言分析方法必然是有损的。相反，我们提出，采用贝叶斯式的重复采样方法，能够更实用且恰当地刻画语境中的语言意义。

1、引言

在2010年代深度学习革命之前，人工智能经历了从20世纪80年代中期到21世纪初的长期“AI寒冬”。在此期间，大多数自然语言处理和人工智能领域的研究人员认为，基于20世纪60至70年代未能实现的人工智能承诺，计算机本身永远无法具备任何形式的通用智能，也无法模拟被称为自然语言的现象。那些尝试实现这一目标的AI研究者常常陷入各种启发式规则的泥潭，而这些规则在面对边缘情况时便会崩溃，最终他们通常放弃这些任务，转而研究更容易解决的问题。参见德雷福斯（Dreyfus）的《计算机仍然不能做什么》[1]，以更深入理解在谷歌翻译等广泛使用大型神经网络的工具取得成功之前，研究人员所认识到的人工推理在逻辑和语义方面的局限性。如今，这类大型神经网络已广泛应用于消费产品中，通常被称为“分布语义模型”（Distributional Semantic Models, DSM）[2–6]。DSM本质上通过统计共现关系来推断相关性和意义，催生了多种高度实用的自然语言处理（NLP）应用，包括主题模型、情感分类以及大型语言模型[7–10]。从设计上看，像BERT这类基于DSM的主题模型都预设了文档具有单一、内在的语义结构（例如早期的“词袋模型”；参见[2]，与动态语义观的对比）。

由于DSM在许多领域取得了实际成功，一些研究人员忽视或未充分考虑当初对人工推理提出的诸多批评，而这些批评至今依然成立。他们反而假设，这些局限性终将通过更多的计算资源或更大的数据量得以解决。然而，请考虑当前自然语言处理领域中以下几个突出的问题：

基于DSM的方法在处理复杂、模糊或富含语境的文本时，仍表现出明显的局限性[11, 12]。
最新一代前沿大型语言模型（LLMs）（如GPT-4.5、Llama 4、Gemini 2.5、Claude 3.7 Sonnet）相比此前模型版本的显著跃进，其进展似乎已明显放缓，这暴露出语义问题求解的可靠性方面存在根本性障碍，而增加计算量或数据量并未能缓解这一问题。同样，许多前沿研究者已逐渐不再优先追求LLM本身的进步，而是转向更具动态能力的模型（例如JEPA [13]、MAMBA [14]、CTM [15]），或对LLM进行改造以实现自我改进[16, 17]。

这些问题以及不断演变的研究格局表明，基于DSM的方法所面临的挑战可能源于语言学中一个更根本的问题：语义退化（semantic degeneracy）。这一概念超越了简单的多义性，指的是在处理复杂语言表达时，天然产生的多种潜在解释的可能性[18–20]。

事实上，这一概念在直觉上是成立的：经验观察表明，任何观察者都能发现，自然语言的意义并非固定或绝对的[2, 21]，而解释本身具有极强的语境依赖性[22–24]。因此，智能体在解释自然语言表达时所实现的任何语义意义，都严重依赖于一个呈组合爆炸式增长的潜在因素集合。这些因素包括但不限于：

句子内部及话语层面的上下文环境[25, 26]
智能体当前的注意力焦点和任务需求，这些因素可以选择性地突出特定的概念特征[27–32]
智能体的背景知识和文化环境[33–35]
短暂的心理状态[36]¹
所使用的具体语言，因为不同语言对语义空间的划分方式各不相同[37]

这种深刻的语境依赖性意味着，意义并非仅仅通过孤立地解码词语本身就能获得，而是由解释主体在特定情境中主动建构或实现的[38–40]。同一个表达式，若呈现给不同的智能体，或同一智能体在不同条件下，可能产生不同的解释[41, 42]。关键的是，这突显了语义意义通过直接解释而实现的过程具有“观察者依赖”的本质——这一点与量子力学中“可观测量作用于量子态”的现象存在类比，我们将在第三节更深入地探讨其含义。这种共构性的过程被认为是由一种称为“相关性实现”（Relevance Realization, RR）的机制所介导的——这是一种核心认知能力，使个体能够通过情境敏感的注意力机制，在广阔的语义空间中高效导航，识别相关信息并过滤无关信息[43–45]。重要的是，RR在标准计算意义上是非算法的[45]，因此在应对诸如问题框架设定和无限搜索空间等挑战时，比在“小世界”中运行的纯形式化系统更具优势[46]。这种具身的、依赖观察者且根植于语境的意义建构观，挑战了语言表达具有内在的、独立于语境或观察者的语义意义这一传统观念，与动态语义记忆模型的观点相一致[22, 27, 38, 41, 47–50]。

这一动态过程所固有的不确定性和深度语境依赖性表明，经典概率论和逻辑框架是不充分的。因此，研究者们转向非经典框架——例如借鉴量子理论原理的模型——以寻找更合适的数学工具。此类方法已被用于建模广泛的认知现象，包括概念组合、决策行为和记忆过程[51–57]。这些受量子启发的模型的实用性不仅限于理论层面，也在实证研究中得到验证。例如，Aerts 等人[58]在分析“宠物-鱼问题”（Pet-Fish problem）在万维网上的概念共现统计时，发现了类量子的语境效应，表明在该尺度下的意义建构偏离了经典概率假设。类似地，其他研究将贝尔（Bell）[59]定理应用于人类认知，揭示了在信息检索判断[60]和认知决策任务[61–63]中均存在违反经典界限的非经典相关性。

最近的研究通过区分两种类型的语境影响，提供了关键的概念深化。在关于面部特质判断的实验中，Bruza 等人[64]明确区分了“语境敏感性”（context-sensitivity）和“真正的语境性”（true contextuality）。前者指语境对认知的常规因果影响，而后者则被定义为一种非因果的语境依赖形式，即某一属性在被测量之前可能本质上是不确定的。他们认为，如果某种认知现象表现出语境性，则其底层认知属性并不具有明确定义的、预先存在的数值；相反，该属性是在判断的瞬间才被实际“实现”的——这一现象唯有非经典模型才能恰当形式化。

鉴于上述现状，本文旨在完成两项主要任务：（1）识别导致前沿大语言模型（LLMs）进展停滞的组合性难题；（2）提出一种基于非经典框架理解与研究自然语言的可行路径。为此，我们在第二节中从信息论角度探讨语义退化在单轮问题求解任务中的作用；在第三节中，我们构建一个用于解释行为的量子语义理论框架；第四节详细说明我们的实验方法，以检验自然语言解释是否可能表现出非经典行为，并利用LLMs作为解释代理；第五节呈现我们的研究结果；第六节讨论这些发现对计算语言学未来发展以及对认知科学理解的更广泛意义。

2、柯尔莫哥洛夫复杂度、语义退化与解释的挑战

柯尔莫哥洛夫复杂度（Kolmogorov Complexity, KC）[65] 为理解自然语言解释的根本局限性提供了一个强有力的视角，尤其适用于那些被期望为用户提供可靠问题解答的大型语言模型（LLMs）。字符串 s 的柯尔莫哥洛夫复杂度 K(s) 在形式上被定义为：在某个固定的通用描述语言中，能够输出 s 的最短计算机程序的长度。尽管 KC 严格适用于有限字符串，但其核心思想——即对某事物进行最简描述所需的信息量——可以延伸至语义领域。

对于某个语义表达式 SE，我们可以将 K(M(SE)) 理解为：明确指定该语义表达式 SE 所意图传达的意义 M(SE) 所需的最少比特数。这种“指定”不仅必须包含所涉及概念的身份信息，还必须涵盖其精确的语境细微差别，以及将这些概念编织成一个连贯整体的复杂关系网络。

例如，对句子“我刚去了动物收容所，把一只狗带回了家”给出一个清晰、连贯的解释，其柯尔莫哥洛夫复杂度很低；然而，对于像詹姆斯·乔伊斯（James Joyce）的《芬尼根的守灵夜》（Finnegans Wake）中这样复杂且高度互文的段落：

“And what sensitive coin I’d be possessed of at Latouche’s, begor, I’d sink it sumtotal, every dolly farting, in vestments of subdominal poteen at prime cost and I bait you my chancey oldcoat against the whole ounce you half on your backboard (if madamaud strips mesdamines may cold strafe illglandsl) that I’m the gogetter that’d make it pay like cash registers as sure as there’s a pot on a pole. And, what with one man’s fish and a dozen men’s poissons, sowing my wild plums to reap ripe plentihorns mead, lashings of erbole and hydromel and bragget, I’d come out with my magic fluke in close time, fair, free and frolicky, zooming tophole on the mart as a factor.”

要明确其“预期意义”的柯尔莫哥洛夫复杂度则极高——高到几乎需要一个比原文长几个数量级的程序，才能提供足够的语境约束来消除歧义。这反映出，要将该段落中多层次的模糊性化解为某一种特定解读，所需的信息量极为庞大。

这种关系我们在图1中以图形方式进行了说明。

如图1所示，随着 K(M(SE)) 的增长，得到完全准确（或足够相近）解释的概率呈指数级下降，对于中等复杂程度的表达式，该概率迅速趋近于零。这一结果清晰地展示了语义退化（semantic degeneracy）的实际表现：即围绕任何语义表达式 SE 存在着大量组合爆炸式的、看似合理的替代性解释。此时值得指出的是，这种情况与统计力学中的某些概念存在类比：SE 可被视为一组微观状态的集合（系综）。即使在推断过程中出现一个比特的错误（即对某个自由度的约束出现偏差），也会导致进入一个不同的微观状态；而由于系统的高维性（即 K(M(SE)) 极高），解释者几乎不可能重现构成该系综的特定微观状态集合（我们将在第三节中论证，这些微观状态本身在先验上是不可知的），从而导致高度的“语义熵”。

这种基于柯尔莫哥洛夫复杂度的分析揭示了自然语言处理（NLP）系统的一个根本性局限，也解释了为何在需要深度、无歧义理解或翻译语义退化表达式的任务中，基于大语言模型（LLM）的辅助始终存在持续困难：LLM 生成的只是一个看似合理的意义——即众多可访问的微观状态之一——但几乎从来不是那个唯一预期的意义。

仅这一结果本身便凸显出，我们必须超越当前以追求单次响应成功为核心的AI系统训练模式，转而优先研究能够像LLM一样成功模拟自然语言、同时又能动态更新和适应自身状态的替代性模型。我们希望，本文所总结的这些洞见，结合所提出的量子语义方法，能够为未来方法与模型的训练、测试与评估提供一个更清晰、更根本的理论基础。

3、量子语义学理论

本研究的基础前提是，意义并非语义表达的内在、静态属性，而是通过表达式与处于特定情境中的解释者之间的动态互动而实现的涌现现象。如前所述，这一框架自然挑战了历史上源于经典物理学的实在论假设。为了形式化地模拟这种依赖于观察者和情境的意义特性，我们提出了一种量子语义框架，它反映了量子物理与经典物理之间的差异。语义表达与句法分离，而是被当作可观测量来处理，这与量子系统中物理测量结果与系统本身相分离（与经典系统中假设的实在论相反）的方式相呼应。我们希望在这一量子逻辑结构下，解释过程和意义实现的过程能够被更清晰地阐明。

4、实验设计

本节概述了用于测试语义解释中非经典关联的实验方法，类似于量子物理中的 CHSH 类型贝尔测试 [59, 66]。特别是，该实验关注大型语言模型（LLM）代理如何在简单句式结构中解释含糊的词对，以及在不同的情境（基于角色）设置下如何进行解释。

A. LLM 作为观察者

在本研究中，LLM 代理作为语义贝尔测试中的“观察者”。为了减少潜在的模型特定偏差并增强我们发现的稳健性，每个代理实例是从一个预定义的多样化、最先进的基础模型和供应商池中随机选择的。该池包括 Gemini 的变体（例如，“gemini-1.5-flash”、“gemini-2.0-flashlite”、“gemini-2.0-flash”）、Anthropic 的 Claude 系列（例如，“claude-3-5-sonnet-latest”、“claude-3-5-haiku-latest” 和 “claude-3-7-sonnet-latest”）、DeepSeek 的“deepseek-chat”以及 OpenAI 的各种模型（例如，“gpt4o”、“gpt-4o-mini”、“gpt-4.1-mini”、“gpt-4.1-nano”、“gpt-4.1nano”）。这种方法符合多模型三角验证的建议，以确保结果的公平性和普适性 [67–70]，并确保我们发现的任何潜在相关性不仅仅局限于单一模型的权重。在每次实验试验中，生成两个主要的基础角色，“Alice”和“Bob”。这些角色通过随机分配的属性（例如年龄，如 25-70 岁；地点，如印第安纳州布鲁明顿、密歇根州底特律）来定义，这些属性隐式地定义了他们的主要语言（在本设置中为英语）。这些属性构成了试验中代理的基础语义记忆档案。

需要指出的是，尽管 LLM 在复杂任务中因语义歧义而表现出局限性，但它们的内部机制——特别是它们的注意力架构——像大脑一样，将潜在解释的状态折叠成一个特定的状态，当回应用户查询时使用。尽管底层机制当然与人类语言解释的生物学和认知基础不同，但两者“观察”特定状态的相似性表明，LLM 确实有效地重现了语言理解和认知的这一功能。因此，这些模型可以作为自然语言任务中的实验性解释探针。此外，已证明 LLM 可以生成在各种情境中大致模仿人类语言行为的响应（例如，示例调查 [71–73]）。Kitadai 等人 [71] 也指出，角色在提高响应的真实性方面具有重要作用，这也是我们所利用的一个重要方面。因此，我们认为可以并且应该使用 LLM 来探测在多样化条件（例如角色和情境变化）下的语义解释的统计模式。通过观察 LLM 如何处理语义歧义和依赖于情境的意义，我们可以深入了解解释机制以及在高语义歧义任务中成功或不成功的计算策略类型 [74, 75]。

B. 贝尔测试

我们语义贝尔测试的核心是向 LLM 代理展示包含两个含糊词汇的句子。随后，代理的任务是为这对词汇中的每一个选择一个单一、明确的含义。通过将含糊词汇对（例如，“trunk”有“储物/树干”两种含义，而“bow”有“船头/蝴蝶结”两种含义）嵌入简单的句子模板（例如，“The word1 was settled near the word2”）来构建刺激材料。为代理 Alice（A, A′）和 Bob（B, B′）定义了四种不同的解释设置，通过为其基础角色提供额外的、不同的简短文本提示来实现，这些提示旨在引导语义上正交的不同情境视角（例如，“You are a surgeon...”与“You are a bus driver...”）。

对于这四种设置中的每一种，相应的 LLM 代理为两个含糊词汇提供单一的同时解释。为了避免对 Alice 和 Bob 产生偏见或限制语义搜索空间，没有向他们展示正在考虑的定义，因此需要单独调用 LLM 来确定每个解释是否与预定义的含义“α”或“β”一致，如果选择不明确（例如，如果“chair”的两种含义选项是“群体的领导者”或“用于坐的家具”，而解释说“家具或领导者”），或者超出这些选项（例如，对于“chair”的例子，如果它认为句子指的是“electric chair”（电椅）的执行，这将被视为超出了定义范围，并进行重新解释）。

5、结果

本文中关于语义歧义所施加的基本限制以及量子语义框架的潜力的论点，提供了一个新的视角，通过它可以重新评估自然语言处理和认知科学中几个核心的争论和流行的方法论。这一讨论将首先涉及语义歧义的信息论挑战（通过柯尔莫哥洛夫复杂度量化）如何影响在需要深度语境理解的任务中分布语义模型（DSMs）和大型语言模型（LLMs）的能力（第六节A部分）。随后，我们将探讨强调观察者依赖的意义实现的量子语义框架，如何与经典的意义和解释理论进行互动并为其提供替代方案（第六节B部分）。接着，我们将把这些观点与特定的认知现象和心理语言学发现联系起来（第六节C部分），最后，考虑对自然语言处理研究（第六节D部分）和实际工业应用（第六节E部分）的更广泛影响。

A. 语义退化：对分布语义模型和大语言模型的影响

分布语义模型（DSMs），包括当代的大语言模型（LLMs），通过从海量文本语料库中学习统计共现关系，取得了显著成功 [2, 6, 7, 9]。这些模型隐含地基于一种假设：只要统计暴露足够充分，就能生成稳健的意义表征。然而，语义退化原理，尤其是通过第二部分详述的柯尔莫哥洛夫复杂性（KC）进行分析时，揭示了这一假设在需要精确、特定语境解释的任务中存在根本性挑战。正如我们所展示的，随着语义表达的复杂性和所需语境消歧的难度增加，指定唯一预期意义所需的KC呈超线性增长。这意味着，任何在有限数据集上训练且权重固定的DSM或LLM，极有可能在某些关键方面提供与“预期”意义不一致的解答和解释，从而导致理解的彻底崩溃。这些信息论上的限制源于潜在解释的组合爆炸，能够充分解释LLM在复杂推理任务中表现停滞不前的现象，以及DSM在处理模糊或语境丰富的文本时持续存在的困难 [11, 12]，即使模型规模和数据量不断增大。事实上，DSM在应对高度歧义任务时的局限性似乎很可能使其无法达到“强人工智能”的地位。看来，替代方法或集成方法（例如，将LLM作为推理引擎，与另一种更动态的模型结合使用）将最终占据主导地位。

B. 量子语义学与经典意义理论

语义退化所揭示的局限性促使人们探索意义的替代性理论框架。我们提出的量子语义框架（第三部分）认为，意义并非文本的内在属性，而是通过依赖于观察者的解释行为才得以实现。这一观点直接挑战了DSM和传统语言学理论中常隐含的语义实在论和定域性假设。经典实在论假设意义是预先存在且确定的，而定域性假设则认为语义成分可以独立确定。相比之下，量子语义方法将语言表达视为提供一系列潜在解释（即叠加态），具体意义则是在特定语境中由主体的解释性“测量”行为“坍缩”或实现的。这与认知科学中的建构主义理论相一致，后者将理解视为一种主动的、情境化的过程 [22, 26, 78]。对意义本质主义观点的哲学批判 [例如，后期的 79, 80] 也与我们的研究结果产生共鸣，因为意义不再静态地存在于符号之中，而是与使用和互动紧密相关。解释操作的不可交换性——这是量子语义模型的一个特征——意味着语境探查的顺序会影响最终实现的意义。这种现象在纯粹的经典加性模型中难以捕捉，但在人类认知中却有体现，例如判断中的顺序效应 [81]，以及类似量子的语境效应，如“宠物-鱼”问题 [58]。

C. 量子语义学：与认知和心理语言学现象的联系

量子语义学中核心的“观察者依赖性意义实现”为一系列已确立的认知和心理语言学发现提供了有力的解释框架。如果意义不是固定的，而是在互动中被实现的，那么主体当前的语境、目标以及被激活的语义记忆对解释所产生的深远影响 [38, 41, 42, 47, 48, 82] 就能够得到自然的解释。这种“测量语境性”（measurement contextuality）的概念，与动态语义记忆模型 [27, 49, 50]、注意力聚焦理论 [28–30]、相关性实现的非算法性特征 [45]，甚至跨语言语义范畴化的差异 [33, 34, 37] 都高度契合。

“测量语境性”这一概念在人类判断研究中具有强烈的实证对应。例如，Bruza 等人 [55, 64] 关于面部判断的研究将语境性从语言领域扩展到了感知领域，认为这些属性在判断发生之前是不确定的，并在判断的瞬间被建构出来。这进一步强化了我们的核心观点：如果具体的感知特征都是不确定的，那么抽象的语义意义更可能需要通过解释行为才能得以实现。我们的实验结果为此观点提供了直接的定量支持。我们观察到的CHSH不等式的违背，其程度与人类认知实验的结果相当，例如Aerts等人 [62] 关于概念纠缠的研究。这一相似性表明，大语言模型触及了人类语义处理中固有的非经典概率结构。

这些发现的汇聚，使我们的大语言模型实验成为研究语义语境性本质的一种新颖方法。从这一角度来看，大语言模型充当了复杂的“计算认知系统”，能够弥合集体人类数据中出现的宏观统计现象与个体主体微观解释行为之间的鸿沟。因此，我们所观察到的语境性表明，这种非经典行为并非人类心理的偶然特征，也不是某种特定大语言模型架构的特例，而是任何复杂、互联系统中语义意义结构与处理方式的一种普遍特征。

D. 方法论的转变：贝叶斯探索与量子认知类比

上述两个论点——语义退化对经典系统的限制，以及量子语义框架的潜力——强烈暗示自然语言处理（NLP）方法论应转向非经典的、以贝叶斯理论为指导的新范式。与其追求单一、确定的解释，不如采用在多种语境条件下对可能解释进行蒙特卡洛采样，并结合语义空间的动态探索（例如通过马尔可夫随机游走）的技术，这或许能更有效地、更稳健地刻画文本。这种方法尤其适用于当前大语言模型因柯尔莫哥洛夫复杂性挑战而面临固有困难的任务，例如细微语义的翻译、新颖性发现以及复杂的单轮文本补全。一个旨在探索大量合理意义实现的系统，虽然速度较慢，但能够有效遍历从问题到解决方案的多种潜在路径，从而更有可能逼近对语义表达需求的真正理解。采用这种基于贝叶斯的视角，使系统能够将歧义不再视为需要消除的错误，而是语义图景中固有且富有信息的重要特征。这种方法直接应对了语义退化所带来的计算不可行性，为构建更具韧性、更富语境感知能力的语言技术提供了切实可行的路径，从而更真实地反映意义本身所具有的概率性本质。

E. 实际架构与人类监督的作用

将这些概念上的转变转化为实际应用，尤其是在多智能体系统 [83, 84] 或需要动态文档理解的大规模企业环境 [85, 86] 等复杂场景中，迫切需要为试图接近智能的模型开发新型且可适应的系统架构。这些架构必须具备管理并利用语境多样性的能力，而非试图消除这种多样性。至关重要的是，量子语义框架所提出的“意义实现的观察者依赖性”，凸显了“人在回路中”（Human-in-the-Loop, HITL）系统持久且根本的重要性。HITL 远非在人工智能实现完全自主之前的临时措施，而将在应对固有语义歧义、验证解释结果、以及确保系统输出符合人类目标和伦理考量等方面，长期扮演核心角色，尤其是在医疗、国防和金融等安全关键领域 [87–89]。明确承认纯粹自动化解释在开放语境中的根本局限性，同时认识到替代性、语境感知框架的潜力，将有助于指导开发出更现实、更稳健、最终也更强大的语言技术。

七、结论

在本研究中，我们采用基于柯尔莫哥洛夫复杂性（Kolmogorov Complexity）的理论框架，并结合使用大语言模型（LLM）代理的新型实验设计，探究了语义意义的根本性、非经典本质。我们通过识别语言解释行为中固有的信息论极限，对这一问题进行了分析，并首次对多种由大语言模型驱动的人工智能代理的解释行为进行了语境性检验。我们的主要结论如下：

语义退化（Semantic degeneracy）是自然语言的一种基本属性，对解释过程施加了信息论上的根本限制；我们通过柯尔莫哥洛夫复杂性分析（第二部分）形式化地阐明了这一点：从一个复杂表达式中恢复出唯一的预期意义，对于任何系统而言都是计算上难以处理的，从而为当前大语言模型性能趋于停滞的现象提供了清晰的解释。
在歧义条件下的语言解释表现出非经典的语境性特征，这一点在我们针对LLM代理进行的语义贝尔实验（Bell test）中得到了证实——实验中频繁且显著地违反了CHSH不等式（|S| > 2）（第四、第五部分）。
我们在大语言模型的解释行为中测得的语境性，与人类认知科学中广泛存在的非经典发现模式一致，表明观察者依赖性和不确定性并非人类心理的特有产物，而是信息处理过程中的普遍原则。
我们的实验验证了意义的观察者依赖性，揭示出并不存在绝对、根本的“真实意义”，而只有依赖语境的解释；因此，唯一可行的科学研究方法是从追求单一“正确”答案的范式中转变，转而采用重复性的贝叶斯式采样，以刻画这些条件性解释在可能性空间中的相互关联方式。
在多种非生物的LLM代理中持续出现的非经典语境性现象，结合人类认知中的类似发现，表明这些统计特性并非特定解释系统的副产物，而是自然语言本身所具有的客观结构性特征。

https://arxiv.org/pdf/2506.10077