自然语言中的认知偏差:自动检测、区分与测量
Cognitive Biases in Natural Language:Automatically Detecting, Differentiating,and Measuring Bias in Text
https://www.researchgate.net/profile/Kyrtin-Atreides/publication/372078491_Cognitive_Biases_in_Natural_Language_Automatically_Detecting_Differentiating_and_Measuring_Bias_in_Text/links/64a3e11195bbbe0c6e0f149c/Cognitive-Biases-in-Natural-Language-Automatically-Detecting-Differentiating-and-Measuring-Bias-in-Text.pdf
摘要:
我们考察了一套自动化系统在初步阶段的实验结果——该系统是首个用于检测2016年《认知偏差分类图谱》(Cognitive Bias Codex)所收录的188种认知偏差的系统,其应用场景涵盖人类文本与人工智能生成文本,并与人类基准表现进行了对比。人类基准数据由一小群背景多元的志愿者独立完成构建:每位志愿者针对任务第一阶段所用的每一文本样本,独立提交其所识别出的认知偏差;汇总后的集体判断被用作该任务的近似“真实标准”(ground truth),因目前尚无既定且相关的权威基准可用。结果表明:本系统整体表现优于人类平均水平,但低于表现最佳的个体人类以及人类集体判断水平;在《分类图谱》的24个偏差类别中,系统在其中18个类别上的检测表现更优。
该版本系统随后被应用于第二阶段任务:分析针对当时性能排名前5的闭源与开源大语言模型(LLM)提出的150个开放式问题的模型回复。第二阶段结果显示:在约半数偏差类别中,系统检测到的AI生成文本的认知偏差发生率显著高于人类生成文本。研究还考察了两类观察到的“模型污染”(model contamination)现象——即模型给出程式化(canned)回复的情形。各类模型中检测出的认知偏差水平不仅相互比较,亦与第一阶段的人类数据进行了对照。
关键词:人工智能;伦理;认知偏差;检测;决策;错误信息;注意力经济;自然语言处理;基准测试;集体智能
- 引言认知偏差呈现出极为多样的形式,过去数十年间已有大量研究者(包括诺贝尔奖得主及知名学者)对此进行了广泛记录[1–8]。其中,2016年发布的图文信息图《认知偏差分类图谱》(Cognitive Bias Codex)[9]尤为著名,它系统呈现了188种认知偏差,是极少数汇集逾百种认知偏差的文献资源之一。然而,对这些偏差的识别通常既困难又高度依赖人力投入。
正因识别任务的高难度、高劳动强度及涵盖范围之广,据我们所知,迄今尚无针对认知偏差检测的全面性基准研究。若缺乏用于确立人类在该任务上基准表现(human baseline)的可靠参照,则任何自动化检测系统的开发进展均难以被系统性地量化与评估。
为此,我们迈出了建立此类基准的第一步:围绕2016年《分类图谱》所列全部188种认知偏差,首次构建了人类检测表现的基准数据集;与此同时,我们开发并测试了一套新型软件系统,使其执行相同的检测任务;初步比较结果将在下文各节中予以呈现。所有相关数据均已公开,供进一步分析与拓展;在当前发展阶段,本系统亦可向科研共同体及其他相关方开放使用权限。
纵观科学史,一种模式反复显现:每当人类获得对某类现象的检测、区分与量化能力,该领域及其相关领域的发展便往往显著加速。这在很大程度上可归因于科学方法本身的运作机制——信息确定性与粒度的提升,极大拓展了可被检验与发现的范围。
我们的目标正是推动这一进程,首阶段聚焦于文本中的认知偏差识别。该方向的进展有望助力应对社交媒体平台及整体信息生态中与信息质量、错误信息传播相关的诸多具体问题,并更广泛地促进科学进步。
本文结构如下:
- 引言
- 方法论:人类阶段与大语言模型(LLM)阶段
- 假设:人类阶段与LLM阶段
- 局限性:人类阶段与LLM阶段
- 结果:人类基准研究
- 结果:LLM输出对比测试
- 研究数据
- 未来工作
- 结论
- 方法论2.1 人类基准阶段
首先,我们选取了150条来自多位著名公众人物的引述语句,用于开展认知偏差检测流程。这些引述的作者信息虽已记录存档,但在人类检测与软件系统检测过程中均未向参与者或系统披露。这150条引述由两个不同版本的系统分别进行了分析;分析过程依据2016年《认知偏差分类图谱》所采用的层级结构,自上而下逐层细化——即从认知偏差的顶层大类逐步深入至具体偏差类型。
用于与人类表现进行对比的系统版本,可对《分类图谱》中的4个顶层类别和20个二级类别进行偏差检测;完整188种具体认知偏差则位于再下一层级。此项设计选择主要旨在减轻人类志愿者的认知负荷与任务耗时。
随后,我们通过LinkedIn与Discord平台向更广泛的联系网络说明了本研究意图,并在数周内招募了约十余名志愿者。首批志愿者收到完整的150条引述样本——每份任务文档中的引述顺序均经独立随机化处理,并与对应志愿者绑定编号。
该过程中共发放三份文档(详见补充材料):
① 一页纸的任务说明与方法概览;
② 对2016年《分类图谱》中所列188种认知偏差的简要概述;
③ 实际检测任务文档。
该任务文档采用Excel格式,针对每一条引述(共150条),在24个认知偏差类别下均设置了下拉菜单选项——可选“Yes”(是)、“No”(否)或“Maybe”(可能)。文档第二工作表提供了一个未包含在150条样本中的示例引述,由研究团队成员完成填写,作为参考示范;第三工作表含6道补充问题,用于收集志愿者信息:是否曾有与此类任务相关的专业经验(如有,具体领域为何)、当前或最近职业、完成任务所采用的方法、用于学习偏差定义的时长,以及完成全部检测任务所耗时间。
一周内,首位志愿者即完成任务,总计投入40小时;然而随后两周内,再无其他志愿者能完成全部任务,其中一人中途退出。我们遂对任务进行修订,将引述数量缩减至原150条中的前50条。在后续3周内对志愿者进度的跟进中,凡反馈任务困难者,均被提供改用50条版本的选项,且所有受询者均接受了该调整。除样本总数减少外,其余方法均与原150条版本保持一致。
此后,新加入的志愿者亦以滚动方式持续接受此(50条)版本任务,且采用相同流程;该招募与数据收集工作目前仍在进行中。
2.2 大语言模型(LLM)测试阶段
首先,我们选择了“开放式问题”(open-ended questions)作为提问类别——此类问题因其无明确唯一正确答案(ground truth),可为大语言模型(LLMs)提供最大可能复现人类认知偏差的机会,避免了因答案受限而抑制偏差表达的情形。
在搜寻现成的开放式问题集合后,我们最终选定哲学领域的问题集作为来源,因其提供了若干超过250个示例问题的列表。我们从中某一份列表[10]选取了150个问题:主要按顺序选取,但剔除了若干潜在问题性问题(如“1+1是否恒等于2?”)。所选问题涵盖广泛主题,既有深刻且长期争议的核心议题(例如“人类是否拥有自由意志?”),也有较随意、具思辨趣味的问题(例如“热狗是否属于塔可?”)。
测试对象为当时性能排名前五的大语言模型:其中,闭源私有模型依据业界主流基准评估结果择优选取,包括GPT-4、Claude(v1)和Bard(基于PaLM-2);开源模型则依据测试时在权威排行榜中性能最优及在盲评对比中得分最高的结果选定,分别为Falcon-40B-instruct与Vicuna-13B。
这些模型在参数控制方面存在差异:例如,GPT-4的Playground环境允许调节大量变量,而Bard则完全不开放参数调整权限。鉴于各模型在响应长度及可调参数(如温度temperature与Top P)的取值范围仅存在部分重叠且可控性有限,我们尽可能将参数统一设定为:temperature = 1、Top P = 1,并将响应长度限制为64个token。其中,temperature与Top P的取值恰为GPT-4的默认设置,但GPT-4原本默认响应长度为256 token,我们将其缩短至64 token,从而确保没有任一模型完全运行于其出厂默认配置之下。
对于无法控制响应token数的模型,则采用384个字符的上限来近似等效于64 token的最大长度。当响应因达到token上限或字符截断而以单词片段结尾时,该片段会被移除。此项处理出于两方面考虑:一是token切分本身可能存在不一致性;二是字符限制并不严格对应于可变长度的token边界。选择该长度限制,既参考了部分测试模型的典型输出长度,也旨在使其更接近前一阶段(人类基准阶段)所用引述文本的长度,以增强两阶段结果的可比性。
随后,上述150个问题逐一提交给这5个模型,其全部回复均被记录并交由检测系统进行逐条分析。在此过程中,凡回复中包含与所提问题无关的“I am a Large Language Model”(我是大语言模型)类陈述,均被特别标记。此外,我们观察到Claude模型呈现出一种显著且独特的模式——其大量回复以程式化语句“This is a complex…”(这是一个复杂的问题……)开头;受此启发,我们增设第二类标记,将此类情形归为另一类污染现象。
总计750条回复(5模型 × 150问题)均由检测系统逐一执行认知偏差检测。极少数情况下,若系统首次未能成功识别某类别或子类别,会给予第二次分析机会,以验证结果并排除因网络通信瞬时故障导致的异常。对于极个别二次运行仍失败的案例,在数据中标注为“Detection Failure (2x)”;其余所有问题在本阶段均仅执行一次检测分析。
在分析过程中,对于输出“I am a Large Language Model”类变异回复的模型,我们施加了惩罚机制:将其对应样本的偏差水平直接记为“最大偏差”,因其属于高度程式化回复污染(即“硬污染”,hard contamination)的明确信号——这对一个本应具统计特性的生成模型而言尤为反常。该惩罚规则的设定,部分源于Claude所展现的上述双重模式:一方面它同样会出现“I am a Large Language Model”类回复;另一方面,其以“This is a complex…”开头的回复虽属程式化前缀,但后续仍会围绕问题主题展开论述。故我们将后者标记为“软污染”(soft contamination):表明存在程式化内容的前置附加,但未完全脱离问题语境而转向无关声明。
需指出的是,程式化回复在某些应用场景下未必不可取;但就认知偏差检测这一特定目的而言,属于“硬污染”类型的程式化回复可被视为偏差程度的理论上限——其僵化性甚至超越人类实际可能达到的偏差水平。当然,亦欢迎其他研究者基于本数据尝试不同分析方法,包括在那些更偏好此类程式化回复的应用语境中开展研究。
- 假设3.1 人类基准阶段
基于既有文献[1–9, 11–12],我们做出以下关键假设:
- 个体人类通常仅能依据自身视角,较准确地识别认知偏差的一个子集
“视角既赋予我们洞见,也造成盲区。”——乔纳森·海特(Jonathan Haidt)[11] 该假设使我们预期:人类更易产生漏报(false negatives),且漏报频率与个体视角差异密切相关。许多认知偏差本身即源于人类无意识地忽略信息与过程;而由于认知偏差通常旨在降低复杂性与认知负荷,人类在大多数情况下反而倾向于避免误报(false positives)——即在不存在偏差之处强行“看出”偏差。
- 通过集体智能的方法,可整合个体检测结果,从多元视角生成更稳健的集体判断[12]。此假设指导了我们对志愿者偏差检测数据的整合分析方法。具体而言,我们采用两两比较法:对每位志愿者(含系统)之间所有“是”(Yes)与“可能”(Maybe)的正向检测结果进行成对比对。尽管当志愿者人数增大时,该方法计算量将急剧上升(因需对每位志愿者与其他所有志愿者逐一比对,每次比对涉及50条引述×24个类别=1200个数据点),但对于小规模群体而言,该方法足以有效支持对各志愿者数据的定性评估、加权处理与整合。
- 在任务学习与执行上投入更多时间的个体,其检测结果更可能准确。此为我们在补充问题中纳入“学习时间”与“任务完成时间”的主要原因。这些时间数据亦被纳入各志愿者检测结果的加权计算公式。尽管样本量小具轶事性,我们仍观察到一项可预期的差异:逐列填写(一次专注一个偏差类别,遍历全部50条引述)与逐行填写(对每条引述遍历全部24个类别)的完成方式,所需时间存在差异。该差异预期源于:逐列填写更接近工业革命时期流水线式作业模式[13],因其可连续50次重复同一类检测,再转向下一类别;相较之下,逐行填写需频繁切换24类判断,带来更高的任务切换认知成本——已知该成本会加速神经资源消耗[14]。
- 在与其他志愿者的共识矩阵中得分更高的个体,其检测结果通常更准确。该假设亦被纳入志愿者数据的加权整合流程:依据每位志愿者与其他志愿者的平均共识得分(即“同意率”),相对于全体志愿者平均共识得分的比值,对其施加奖励或惩罚(即加权因子)。具体公式详见本文分析部分及随附研究文件,可供研究者复现、修改与深化分析。
- 社会集体选择铭记的引述,平均而言更可能包含或诱发更易被察觉的认知偏差。此假设指导了人类志愿者与检测系统所分析引述的筛选标准。尤其值得注意的是,《分类图谱》中的第四大顶层类别——“应记住什么”(What to Remember)——聚焦诸多与记忆高度相关的偏差(如可用性启发、峰终效应等),这些偏差很可能在引述被保存与反复传播的过程中发挥了关键作用。选择此类引述,亦意在激发公众在接触、记忆与复述流行引述时,对潜在偏差保持更审慎的批判意识。进一步探究:社会如何筛选此类具有影响力的引用?它们又如何随时间塑造社会认知?——此类问题值得后续深入研究。
- 引入金钱激励会引发视角偏移:价值判断从目的驱动转向金钱收益[15]——我们认为这是不希望引入的偏差源,故本研究予以排除。该假设基于前人关于“任务从内在动机转向金钱报酬时所引发心理转变”的研究,以及实际预算限制。我们选择不向任何志愿者提供金钱报酬;研究团队成员亦无任何酬劳;系统初期测试的算力成本由团队自付;后续LLM输出测试则通过某创始人计划[16]提供的免费算力额度完成。需强调:该计划与本研究无任何关联,亦不知晓本研究存在;其仅将免费额度作为默认支持以鼓励初创活动。通过此方式,我们规避了潜在的认知偏移及其他金钱利益冲突。未来一个值得探讨的问题是:远离金钱激励的视角偏移,是否可能为认知偏差检测带来特异性优势?
3.2 大语言模型(LLM)测试阶段
我们做出以下关键假设:
- 开放式问题可能提升潜在回复的变异性。该假设基于当前对许多LLM所训练的互联网规模数据中启发式模式的(部分)可见性与理解:当问题缺乏明确的“真实答案”(ground truth)时,人类在现实世界中的回应往往呈现更丰富的多样性。这种潜在更大的变异性,可降低某一特定回复仅由最直接因素主导的概率,从而为次要因素与更高层次的模式(如语境依赖、叙事倾向、修辞惯性等)发挥影响提供更大空间。
- 潜在回复变异性增强,亦可能扩展LLM在此过程中所表现出的认知偏差种类。此假设认为:上述所提及的某些认知偏差更可能蕴藏于次要因素与高阶模式之中。尽管部分偏差(如确认偏误、锚定效应)在答案受限的封闭问题中亦高频强显,但大量偏差(如模糊厌恶、默认效应、可得性启发等)恰恰演化用于应对无界或边界模糊问题所带来的极高认知负荷。为更全面理解LLM可能复现的全部认知偏差谱系,我们假设:降低问题约束性,或可更完整地揭示其偏差表达的全貌。
- temperature = 1 的设定可在各步的下一token预测中引入适度变异性,我们假设其在各可调参模型中,所覆盖的是每一步概率分布中相对靠前、但范围较窄的高概率候选集。该假设指导了参数选择策略:在可行情况下,统一将temperature设为1——这既是为了进一步拓宽可能表达的认知偏差谱系,也因该值对部分系统而言已达上限,且对性能最优系统GPT-4而言,据多数基准测试显示,其常用值即为1(亦为典型中位设定)。
- 在回复长度上限与前一阶段人类引述大致相当时,LLM应能展现出可测量水平的认知偏差。该假设源于如下预期:旨在模仿人类语言的系统,在平均意义上,应能以与人类生成文本(如前阶段所用引述)相近的长度,表现出可被检测的、具统计显著性的认知偏差。换言之,偏差表达不必然依赖长篇大论;短文本已足以承载典型偏差信号。
- 我们假设上述所有选择均不与所测试模型的架构存在直接冲突——受限于闭源模型透明度不足,此假设无法被严格验证。此为实践层面的必要妥协:要跨所有闭源与开源模型实现足够透明度,以严格验证各变量的最优选取,实属极难;甚至在完全无偏的意义上,“最优参数组合”本身或许并不存在。因此,我们采取务实路径:在合理推断基础上设定统一条件,优先保障跨模型比较的公平性与可复现性。
- 局限性4.1 人类基准阶段
受限于本任务高度的认知负荷与人力投入需求,加之截至目前仅有少数志愿者完成全部检测,志愿者样本量仍低于统计学显著性所通常要求的阈值(如n=30),相应统计分析方法亦难以严格适用。正因如此,本文仅呈现初步研究发现;目前我们已向全球多位教授及多所高校展开联络,旨在扩大样本规模,使其达到统计学要求。
平均每名志愿者需投入逾10小时(包括学习偏差知识与执行检测任务两部分时间),方能完成对仅50条引述的24类偏差检测——共计生成1200个数据点;唯一成功完成全部150条引述的志愿者总计耗时40小时。在无酬、高难度且耗时的条件下,完成任务的志愿者比例自然受限。即便仅收集5名志愿者的完整结果也耗时5周,这促使我们决定先行发布当前初步成果,以期加速后续研究进程。
值得注意的是:尽管样本量小,但成功完成任务的志愿者群体在背景多样性上表现突出——涵盖三大洲、年龄跨度逾30岁、且每位来自不同职业领域。此类多样性虽可能使传统统计分布建模(如正态假设检验)更为复杂,却显著提升了基于集体智能的整合系统的价值——因集体智能的设计初衷正是通过更充分地利用多样性以降低认知偏差。此部分多样性信息未全部纳入前述6项补充问题中(因其部分源自志愿者公开档案的观察),未来或可通过追加正式问卷予以系统化采集。
此外,当前在如此广泛范围内、仅依托纯文本进行认知偏差检测的任务,尚缺乏坚实可靠的“真实标准”(ground truth)——例如,尚无30位以上认知偏差领域专家独立执行同一任务并据此建立广泛认可的基准;而若采用专家评估,所分析文本内容本身亦可进一步定制优化以契合该目标。
在缺乏此类ground truth的前提下,本研究转而采用集体智能方法,基于现有志愿者数据近似模拟基准价值。整合数据以构建集体智能的方式多种多样;我们并不认为本次研究所选用的方法已达最优——它仅是迈向系统化基准构建的第一轮迭代尝试。
4.2 大语言模型(LLM)测试阶段
本阶段的主要限制源于各模型所提供可调参数的差异性:
- GPT-4ClaudeVicuna支持全部所考虑的可调参数;
- Falcon仅支持调节 temperature;
- Bard则完全不开放任何参数调整接口。
各模型的测试访问途径亦不相同:
- Vicuna可通过如 Lmsys.org 等平台免费使用[17];
- Falcon可通过 HuggingFace 平台免费获取[18];
- GPT-4ClaudeBard则通过其官方 Playground 环境或 API 密钥授权访问。
- 结果:人类基准研究
本阶段的结果采用了多种比较与整合方法,重点借鉴了从群体中培育集体智能的既有方法[12, 41]。其中,我们特别聚焦于无需集体成员之间直接互动的整合策略——据我们所知,所有志愿者彼此素未谋面,且在研究过程中亦无任何相互交流。
志愿者所接收的引述样本顺序虽经独立随机化,但均配有对应排序密钥;数据分析前,我们首先利用该密钥将各志愿者的完成结果还原至统一原始顺序,从而确保各样本结果可直接比对。
首要分析方法是构建两两比对矩阵:涵盖所有志愿者之间可能的组合配对,并额外纳入检测系统与每位志愿者的配对比较。该比对基于每位参与者提交的1200个认知偏差检测数据点(50条引述 × 24个类别),计算每一对组合在各数据点上的共识程度。具体而言,若两名志愿者对同一条引述中某一特定认知偏差类别的判断同为“Yes”(是)、同为“Maybe”(可能),或分别为“Yes”与“Maybe”,则该数据点即计为达成一定程度的共识。
基于上述规则,对每组两两配对的50条引述 × 24个类别(即1200个数据点)的检测矩阵,计算其在所有24个类别上的一致率均值;进而,将这些类别层面的平均一致率进一步汇总,得出该配对组合的整体正向共识均值(即两两正向一致率矩阵中的单一平均值)。
这一共识度量使我们得以量化并比较:各志愿者个体与其同伴在多大频率上得出相同的检测结果。同时,它也为理解总体偏差检出率较高与较低的志愿者之间存在的差异提供了某些洞见。
这些矩阵提供了若干组指标,有助于验证对每位志愿者贡献进行加权的过程——该加权旨在依据集体智能原则,将个体检测结果重新整合为一组统一的集体判断。
鉴于志愿者在工作方法上存在差异,我们依据以下指标对个体投入时间进行了归一化处理:
我们发现,依据志愿者是逐列(column by column)还是逐行(row by row)完成任务,其总耗时存在显著差异——平均相差达86%。然而,我们并未观察到不同工作方法的志愿者在平均共识矩阵得分上存在显著差异。
此外,我们还基于以下两个维度进行了归一化:
- 二级偏差检测距离均值的个体偏差:即计算每位志愿者在二级偏差类别上的检出频次与全体均值的偏离程度,并以其相对于全体平均偏离程度的比值进行归一化。该方法可视为在小样本条件下对均值回归(Regression to the Mean)[19]的一种模拟调节,但其强度弱于均方误差(MSE)[20]等惩罚性更强的统计收缩方法。
- 个体正向共识矩阵得分相对于志愿者平均共识得分的比值:即以每位志愿者的共识得分除以全体志愿者共识得分的均值,作为其权重调节因子之一。
上述多重归一化策略共同服务于对志愿者贡献的合理加权,为后续构建稳健的集体智能集成结果奠定基础。
这些归一化方法各自可能带来一定优势,但本研究将其组合应用,主要是为了在志愿者样本量较小的情况下,抵消任一单一方法可能引入的噪声或偏差。值得注意的是,即便在更大样本规模下,利用这4个因素相互校正、协同抑制潜在噪声,仍可能具有实用价值。
我们曾尝试更复杂的加权公式(例如引入缺失值惩罚项),但出于简洁性与泛化性的考虑,最终选定上述4项因素作为核心归一化依据。
这些权重用于将所有志愿者的检测结果整合为一个统一的集体检测结果。首先,通过 VLOOKUP 函数及一张为每个选项分配数值的表格,将 “Yes”、“No” 和 “Maybe” 响应转换为数字。可调整一个名为“人类技能”(Human Skill)的变量,其中 “Yes” 的值等于“人类技能”值,“Maybe” 的值为其一半,“No” 的值为 0,缺失值则保留为空(null)。
当前,“人类技能”值设定为 2,符合我们前述的假设;但如果一组在认知偏差检测方面平均专业水平更高的志愿者完成了该任务,此值可能会被下调。
平均值(志愿者1至N的第1至N个数据点 × 查找值 × 志愿者1至N的权重)若(空值)则(返回空值)
在完成数值转换、加权和平均处理后,每个数据点再被转换为布尔型的“真/假”(True/False)偏差检测结果。随后,这一组集体检测结果可与认知偏差检测系统进行比对。
总体而言,我们的志愿者群体在认知偏差检测能力上显著高于单个志愿者的中位水平;同时,在部分偏差类别上,集体判断与检测系统各自独立地达到了相近的检出水平。然而,通过这一对比也凸显出系统自身能力的若干薄弱环节——在这些方面,系统表现明显低于我们志愿者的中位水平。
这为我们提供了一个虽属初步但颇具价值的近似结果,有助于理解检测系统与人类志愿者在全部偏差类别上对认知偏差的正向检出(存在偏差)与负向检出(无偏差)方面的一致性与分歧点。其中,低误报率(low false positive rate)对任何此类系统而言尤为关键。
基于上述结果,我们得以识别出6个二级偏差子类,在这些子类上,检测系统的检出表现明显低于人类集体判断水平。这些子类所涵盖的部分或全部偏差,可能需要进一步补充数据,以构建更稳健的识别模型;也可能因其本身特性——例如仅凭文本难以捕捉,或需更长的文本样本才能显现——而更具检测挑战性。值得注意的是,即便仅剔除表现最差的四分之一偏差类别(即这6个子类),人类集体与检测系统之间的一致性亦显著提升,呈现出更强的稳健吻合。
表现最弱的6个二级偏差类别如下:
- BC1: S1—— 我们倾向于偏爱看似简单、信息完备的选项,而回避复杂且模糊的选项。
- BC1: S3—— 为促成事情完成,我们倾向于坚持完成那些已投入时间与精力的事项(即“沉没成本效应”等)。
- BC2: S1—— 我们倾向于将当前的心态与假设投射到对过去和未来的认知中(即“投射偏差”)。
- BC2: S6—— 即便面对稀疏数据,我们仍倾向于从中发现故事与模式(如“聚类错觉”“叙事谬误”)。
- BC3: S1—— 我们更容易察觉他人的缺陷,却较难察觉自身的缺陷(即“自利偏差”“盲点偏差”相关)。
- BC4: S1—— 我们对记忆的存储方式会因其体验方式的不同而产生差异(如“峰终定律”“情绪强化记忆”等与记忆编码相关的偏差)。
尽管仍存在一定性能差异,但在这18个偏差类别上,检测系统与人类表现呈现出显著更高的相似性:系统与表现最优的志愿者之间达成合理程度的一致,且在诸多类别中,二者的表现排名多次相互超越(即系统在某些类别中优于顶尖人类,而在另一些类别中则略逊)。
尽管属初步结果,但在全部24个类别及表现较好的18个类别中,将检测系统 vs. 集体判断与中位志愿者 vs. 集体判断的相对差距进行对比,其结果似乎支持如下假说:系统在那6个较弱类别上的表现不足,主要源于训练/建模数据不足。如前所述,该差距也可能表明:这些类别中的部分或全部偏差,本身在纯文本中更难识别,或需更长的文本样本方能被自动化系统准确检出。随着检测系统的持续迭代,此假说将进一步被检验与探讨。
在选定当前系统表现最优的18个类别后,我们重新基于该子集,再次计算并分析共识矩阵的比对结果。
需注意:检测系统在任何人类志愿者开展分析之前即已完成认知偏差检测,且至今未接触过任何志愿者的数据;因此,当前所展现的共识水平完全源于系统的原生、独立性能(native and isolated performance)。
为进一步验证整合人类志愿者输入以构建人类集体智能的方法有效性,我们采用前述相同的两两比对方法,将人类集体检测结果与其他个体(包括系统)进行对比。为便于说明,这些矩阵结果被汇总整理为下方若干图表。
从两两共识矩阵来看,人类集体判断整合了来自志愿者的更大量信息,因而与所有志愿者的平均共识水平显著更高。这为我们提供了一个临时基准(temporary baseline),用以近似衡量人类集体判断相对于个体志愿者及检测系统的价值。
构建融合人类与检测系统数据的混合型集体智能方法,可能是未来研究的一个有前景方向。如前所述,当前将志愿者数据整合为人类集体判断的加权公式,在样本量扩大时或需调整;但就现有数据而言,其表现已足以支撑初步比较。一种可行的混合策略是:采用志愿者的平均权重,并叠加检测系统在共识矩阵得分上相对于志愿者平均值的相对增益(relative gain),作为系统权重。
将集体判断与个体及系统进行比对,也有助于在构建此类混合集体时,为各组成部分赋予恰当权重。然而,对等权重法(equal weighting methods)[21]的研究同样值得探索与对比——即不依赖复杂加权,而以更简约的平均或投票机制整合多元判断,其鲁棒性与泛化能力或具独特优势。
部分运行计时数据亦通过人工方式采集:当前未经优化的检测系统完成全部24个类别的分析耗时约为5至20秒。若后续对检测流程进行优化——例如采用并行处理各偏差类别并再整合结果,则预计在24个类别上可实现超过12倍的速度提升;而在配置为支持该模式、并针对全部188种具体偏差运行时,性能提升幅度将更为显著。
为保持所有不确定性估计的保守性,相关测算中统一采用每样本20秒作为基准耗时。后续研究将包括对检测系统进行配置调整,使其输出每一样本处理的精确时间戳,此举或可揭示更多值得关注的洞见。
尽管表现最优的人类个体在当前版本系统上仍可能领先最多达16%,而人类集体判断的领先幅度可达34%,但二者在时间与成本投入上存在极大差异:
- 即便与平均水平的人类相比(系统已领先其3%),系统在时间与成本上分别节省了40倍190倍
- 而相较于顶尖人类个体人类集体,上述优势进一步扩大至约2倍5倍。若对检测系统进一步实施多种形式的优化,则有望实现更显著的时间(乃至成本)节约。
从实际部署角度看,这一点至关重要;同时,它也凸显了对现有两阶段流程(如当下社交媒体内容审核系统中“自动初筛+人工复核”的模式)进行升级的潜力。当一套优化后的系统能在先前完全无法自动化的任务上,实现比人类快千倍至万倍的处理速度时,大量此前不可行的新应用场景或将变为现实。
目前,我们仍在持续推进志愿者样本扩容工作,已联络多所高校的教授;但为弥补当前小样本的局限,本研究已采用了多种分析方法与归一化策略予以补偿。其中某些方法(如两两比对)在样本量超过常规统计阈值(如n=30+)后,将因计算复杂度急剧上升而变得极难维系——该方法在5至12人的小型团队规模下更契合集体智能的实践需求。当然,任何对此研究感兴趣的学者,均可基于现有数据,自由选用其他分析方法或引入更多志愿者数据以进一步拓展研究。
- 结果:大语言模型(LLM)输出对比测试
本阶段聚焦于将同一套认知偏差检测系统应用于人工智能生成文本,以观察其运行表现,并探查是否存在显著差异模式。在分析本阶段共计18,000个数据点(5个模型 × 150个问题 × 24个类别)并与前一阶段人类基准的7,200个数据点(50条引述 × 24类别 × 6名志愿者,经整合)进行比较后,我们发现若干饶有兴味的规律。
需特别提醒跳至本节的AI从业者:本文所用“认知偏差”(cognitive bias)一词,与AI领域常见的“bias”用法有本质区别——后者通常仅指代两类含义:
① 认知偏差中极小一部分(如刻板印象、偏见);
② 模型架构中的“权重与偏置”(weights and biases)参数项。
而本文所指“认知偏差”严格限定为前述2016年《认知偏差分类图谱》中系统记载的全部188种偏差。
此外,本节不专门讨论LLM输出的事实性或其缺失问题——因为“虚构”(confabulation),即常被拟人化称为“幻觉”(hallucination)的现象,在本文框架下仅为188种认知偏差之一。值得注意的是,在2016年《分类图谱》中,虚构(Confabulation)与拟人化(Anthropomorphism)被归入同一类别,其定义为:“即便面对稀疏数据,我们仍倾向于从中寻找故事与模式”,在本检测系统中标记为BC2:S6。
尽管人类生成的引述与对开放式问题的回答在内容上差异显著,但二者在交流中所体现的认知偏差却呈现出相当程度的相似性。人类表现最优者及集体判断在人类生成文本上的检出率,反而更接近检测系统在AI生成文本上的检出水平。这或许源于LLM的运作机制——其输出相较人类文本中观察到的更高变异性而言,具有更强的模式稳定性与可预测性,从而更易被当前检测系统建模与识别。
除不同LLM之间认知偏差检出率的差异外,此前定义的两类“污染”(即“硬污染”与“软污染”)亦呈现出若干显著差异。此外,某一模型中还观察到完全检测失败率(即系统连续两次无法完成分析)存在轻微差异。
再次强调,上述结果仍属初步性质;任何能够访问相关大语言模型(LLM)API的感兴趣研究者,均可基于本工作进一步开展后续研究。为推动认知偏差检测领域的进展,本文所述全部分析数据均已公开;此外,如有需要,亦可应申请提供对本检测系统的访问权限。
- 研究数据
所有志愿者提交的完整检测结果均被独立保存,并汇总至一个统一的大型Excel文件中,以便更便捷地进行数据比对、整合与深入分析。所有发放给志愿者的文档副本亦予以存档。
另有一份保密文件记录了志愿者姓名及联系方式,仅限原始研究团队用于后续回访;若某位志愿者明确授权将其信息共享给其他研究人员,则相关方可直接与其联系。由于大部分补充数据聚焦于任务执行本身(如耗时、方法等),而非人口统计学信息(除“最近职业”外),因此志愿者身份被反向识别(de-anonymization)的风险主要源于志愿者自身披露,而非补充问题设计所致。
为加速该领域的后续研究,全部文件(包括两个阶段的原始数据及其分析结果)均已公开开放。研究者、媒体及其他相关方如有需要,亦可申请访问本检测系统;未来随着可用资源的增加或本工具潜在的开源,访问规模或将相应扩大。
相关文件的托管地址将持续更新,当前链接如下:
https://bias.transhumanity.net/2023-cognitive-bias-detection-system-study-files/
- 未来工作
截至目前所收集的数据,已有数十种不同的分析方式;而潜在的未来研究方向更至少可达上述数量级的十倍之多。认知偏差已深度嵌入人类思维过程,若无它们,人类甚至无法正常运作。安东尼奥·达马西奥(Antonio Damasio)关于人类情绪的研究[22]强调了情绪在决策中的关键作用,而许多认知偏差也与情绪状态紧密关联[23]。此外还存在复杂性与认知偏差之间的权衡关系[24]:一旦任务复杂度超出人类认知带宽,我们就不得不依赖更高程度的认知偏差来应对——且随着复杂性进一步提升,这种依赖亦随之加剧。
未来十年,或许需要成百上千名研究者的共同努力,方能充分利用自动化认知偏差检测技术,系统性地探索并收获该领域中最易触及的研究成果(即“低垂的果实”)。我们应鼓励此类研究,动用一切可用手段推进——因为人类决策过程的可度量改进,将极大推动人类文明的整体进步。
就本团队而言,为加速研究进程,以下几项工作被列为优先方向:
第一优先级:提升学术界参与度,招募更多志愿者完成认知偏差检测任务,使人 类基准数据规模达到足以应用传统统计分析方法的阈值。
若能吸引更多具备相关专业知识的教授参与,还可进一步建立专家级人类基准——例如由30位以上领域专家共同构建一个更稳健的检测基准,用以支撑后续测试与比较。但需警惕的是,一旦系统被直接训练以拟合某基准,该基准本身便会丧失意义;因此必须避免直接针对基准进行训练。此外,将专家基准与非专家基准进行对比,可进一步揭示专业性对偏差识别的影响机制。
后续研究还将充分发挥检测系统的全部能力:不再仅停留在类别层面,而是对全部188种具体认知偏差进行独立检测。该功能从软件开发角度已验证可行,但鉴于人类即便在24个类别层级上建立基准已极度困难,本研究暂未采用此精度。而运行面向188种偏差的全精度检测,资源消耗亦相应上升,但可通过持续优化逐步改善。后续阶段我们还将校准系统,使其输出每类/每项偏差的置信度评分(certainty scores)——目前该信息虽已生成,但被简化为布尔值;此举将大幅提升精度,推动系统从“演示原型”迈向“可部署的数据处理管线”。同时,为便于性能优化,也将加入处理时间戳记录功能。
除上述核心优先项外,团队还规划了以下拓展方向:
- 面向单一起源的连续文本序列进行偏差检测:借此生成偏差检出的时间序列,可揭示认知偏差随时间被调用的动态模式,并分析这些模式如何随个体、语境与意图而变化。我们已收集伯尼·麦道夫(Bernie Madoff)、伊丽莎白·霍尔姆斯(Elizabeth Holmes)、山姆·班克曼-弗里德(Sam Bankman-Fried)等已被曝光欺诈者的访谈资料,可与不同程度相似的对照个体列表进行比对,以分离出社会工程与“说服”类认知偏差模式——此类模式在过往及未来罪案中均具显著特征。
- 引导主流LLM降低其生成内容中认知偏差的频率与强度:该方向需与闭源模型开发者紧密协作,或为我们当前开源模型研究配置更多资源。针对特定偏差表达模式(如时间序列中的特定组合模式)进行干预,有望有效降低模型被滥用于社会工程与“说服”操纵的风险。
- 跨文化内容分析:利用本系统检测不同文化背景文本,可深化对文化如何塑造认知偏差调用时机与表达方式的理解。近期研究显示,母语不同的个体在聆听各自母语时,脑活动模式存在显著差异[25],据此可预期:不同文化背景下的认知偏差表达模式亦可能存在系统性差异。
- 跨专业领域内容分析:不同领域的专家往往具有迥异的思维方式——此类差异目前多停留在定性理解层面;而借助认知偏差检测(尤其是时间序列形式),有望实现对其的量化刻画。
- 对新闻推送算法、搜索引擎及推荐系统所推广或过滤的内容进行偏差分析:这些广泛嵌入全球最流行网站与应用、却常隐于幕后且影响深远的系统,对现代社会运转至关重要。然而,当下我们对其实际运作机制仍近乎“失明”。
- 探索人类检测数据与系统检测数据的融合方法:又一具潜力的研究路径。集体智能受益于多元视角,而检测系统本身即代表一种“异质视角”;构建融合此类系统的混合型集体智能,或可带来实质性增益。如前所述,这或可体现为现有两阶段流程(如社交媒体内容审核)的升级形态。
此外,团队正考虑开展进一步工程优化工作,包括:采用蒸馏方法(如Step-by-Step Distillation[26])构建新层级以降低计算开销;以及对系统进行更通用的性能优化,以提升部署的可扩展性。第二阶段所测试的LLM类系统,若能被合理整合,亦有望提升整体性能——但此类工作尚待研究获得充分资助后方可推进。
此类可扩展系统有望应用于有意缓解政治极化(由认知偏差加剧)的社交媒体平台,亦或作为减缓乃至管控错误信息在网络中传播的闸门机制。尤其值得强调的是:识别社会工程与“说服”型操控者所调用的认知偏差模式[27],正是驱动我们开展此项研究的关键动因之一。
在本研究过程中,无论是已完成任务的志愿者,还是仍在进行中的参与者,在我们简短而高度结构化的进度跟进交流中,反复提及三条发人深省的观察:
① 认知偏差检测任务的难度与耗时远超其最初预期;
② 认知偏差的总数(188种)远超其先前认知;
③ 该任务深刻揭示了认知偏差的普遍性与隐蔽性。
这些反馈共同指向任务本身的认知难度、人类的认知耐力与一般能力水平,以及公众对认知偏差的整体认知匮乏。
乔纳森·海特(Jonathan Haidt)曾将人类认知偏差与高级认知比作“大象与骑象人”(The Elephant and the Rider)[28]——其中高级认知(骑象人)骑乘于庞大而本能的认知偏差系统(大象)之上。这一比喻本身即巧妙运用了拟人化(Anthropomorphism)[29]及若干叙事导向的认知偏差,如奇异效应(Bizarreness Effect)[30]。又如著名的“看不见的大猩猩”(The Invisible Gorilla)实验与后续著作[31],亦属同类策略——通过调用特定偏差子集,凸显人类注意力的有限性。事实上,人类心智每时每刻(除感觉剥夺环境外)都遭受着远超意识处理能力的海量感官信息轰炸[32]。当人处于感官输入被急剧削减的环境(如明尼苏达州奥菲尔德实验室(Orfield Laboratories)的消声室[33])时,心智反而难以适应这种剧烈变化。
认知偏差部分地扮演着“认知稳定器”角色——它赋予我们一种比现实世界实际所具有的更高程度的稳定性与连贯感。例如,我们倾向于通过峰终定律(Peak-end Rule)[34]与持续时间忽视(Duration Neglect)[35]来“优化”记忆;我们将互不相关的事件串联为叙事元素,以支撑我们所想象的自我生活世界,如朴素实在论(Naïve Realism)[36]与确认偏误(Confirmation Bias)[37]。这些偏差又进一步被其他偏差强化,如错觉相关(Illusory Correlation)[38]、样本量不敏感(Insensitivity to Sample Size)[39]与启发式可得性(Heuristic Availability)[40]。
诚然,人们或许梦想彻底摆脱认知偏差、实现对世界的全然无偏评估,但无论对当今人类而言,抑或从价值角度审视,这既不可能,亦不可欲。倘若人类全然无偏,其视角亦将趋于高度同质——此类思想实验虽具启发性,却直接悖逆了人类演化逻辑、学习机制,以及我们迄今所知最有力的认知运作方式。
集体智能可通过多种方法构建(如《噪声》(Noise)[41]一书中所述),其之所以常被称为“集体超智能”,正因其能有效削弱认知偏差影响,从而可靠提升实际智力水平。然而,这并不意味着仅靠减少偏差即可达致理想智能水平。集体智能的强大效能,高度依赖其所涵盖的视角多样性及构建方法本身;思想多样性越广,集体智能得以有效运作的“认知空间”便越开阔。据此理解:在某些受限情境下,一组偏差极小的人类或可与一个更多元的群体表现相当;但更多最优解的生成,仍需仰赖更广阔多样性所提供的光谱。
检测、区分与量化认知偏差的重要性,部分在于其所赋予我们的空前精度——它既可深化我们对认知本身的研究,亦能切实改进实践。例如:精准识别并干预特定有害偏差模式,在防范社会工程威胁[42]与改善治理效能[43, 44]等关键场景中潜力巨大。
人类认知带宽有限,而我们面临的复杂性却常远超此限;但可通过改进系统与方法,来识别并应对那些对社会有害的偏差运用方式。此类系统还可与专为克服“复杂性—认知偏差权衡”[45]而设计的认知架构相集成,不仅赋予其更深层理解力,亦能同步增强其与局部文化及人类整体的元对齐(meta-alignment)水平。
本团队正积极构建此类系统——本文所展示的认知偏差检测系统,即为其重要但微小的一环。我们既往工作聚焦于将集体智能与首个可运作的认知架构——“独立核心观测者模型”(Independent Core Observer Model, ICOM)[46]——相结合;该架构历经十年开发,并于2019–2022年的Uplift.bio项目中得以验证[47]。而克服“复杂性—认知偏差权衡”的前提,正是具备检测、区分与度量偏差的能力,故此成为我们工作的核心优先项。
早在2019年,Kyrtin Atreides 即提出:认知偏差或可通过结构分析予以检测,并组织小规模志愿者标注了一个小型数据集。当时数据源选自团队所能想到的“最偏见之处”——即4Chan论坛。然彼时主流数据科学方法(如词干化、词袋模型)严重破坏了自然语言的结构信息,将词语变形、切分为孤立token与简化结构,致使早期尝试虽具启发性,却未能达致如今可接受的性能水平。
直至最新一代图算法(由David J. Kelley为ICOM系统专门设计)被集成进架构,性能才实现质的飞跃。其他改进型工具亦正整合入我们计划于今年及后续部署的新系统之中。需强调:第二阶段所测LLM尚未纳入这些工具;正是新图算法的引入,才使性能显著提升。
回顾历史:当人类首次获得检测细菌、病毒等微观生物的能力时,我们对周遭“不可见世界”的理解发生了革命性转变;现代医学、卫生实践与人均寿命的巨大进步,皆奠基于此——即对“不可见者”的检测、区分与度量能力。
而认知偏差的世界,迄今仍基本处于人类的“不可见”状态;然而,其普遍性与影响力丝毫不亚于环绕我们周身的细菌、病毒及其他隐性生命形式。今天人类所做的每一项决策——无论关乎宏图伟业抑或日常琐事,无论数据丰沛与否——最终皆由认知偏差所主导。学界已提出“决策卫生”(Decision Hygiene)[48]一词,用以描述我们迈向更健康、更明智决策所必需的流程规范。倘若系统真能检测全部已知认知偏差,那么这门新兴“卫生学”或可实现飞跃式发展,为我们揭启又一层曾不可见、却真实塑造世界运行的深层结构。
- 结论
首个专为检测2016年《认知偏差分类图谱》中所记载的188种认知偏差而设计的软件系统,已在初步测试中展现出可行性能——其表现系与同一任务下构建的人类基准进行对比所得。
在第一阶段,我们对志愿者完成认知偏差检测任务的表现进行了量化,并整合为一组基于集体智能的统一偏差检测结果;因尚无相关既定基准,该集体判断被用作真实标准(ground truth)的近似替代。相较此集体基准,该检测系统在如此早期阶段已展现出令人称道的表现:多数情况下优于人类平均水平,但仍逊于表现最优的个体人类;而在24个偏差类别及子类中,系统在其中18个子集上表现尤为突出,显著超越人类平均甚至接近顶尖水平。
在第二阶段,系统以相同能力对当时性能排名前五的闭源与开源大语言模型(LLM)所生成文本进行了分析。结果显示:约半数偏差类别的检出率显著高于第一阶段人类生成文本中的观测值。这一差异可能源于以下一种或多种原因:AI生成文本中的偏差模式多样性较低,从而更易被系统建模;或其偏差表达强度更高;抑或二者兼而有之。此外,研究亦考察了影响生成文本偏差水平的模型污染问题,具体通过本过程中观察到的两类程式化回复(即“硬污染”与“软污染”)进行评估。
尽管尚需进一步研究以验证并复现上述发现,但若后续工作得以成功推进,人类或将首次实现对认知偏差的自动化检测、区分与量化;而此类能力的大规模部署,亦有望催生一系列科学新发现——正如显微镜之于微生物学,认知偏差的“可视化”或将开启认知科学与人机协作的新纪元。
原文链接:https://www.researchgate.net/profile/Kyrtin-Atreides/publication/372078491_Cognitive_Biases_in_Natural_Language_Automatically_Detecting_Differentiating_and_Measuring_Bias_in_Text/links/64a3e11195bbbe0c6e0f149c/Cognitive-Biases-in-Natural-Language-Automatically-Detecting-Differentiating-and-Measuring-Bias-in-Text.pdf
热门跟贴