来源:市场资讯
(来源:图灵人工智能)
摘 要随着大语言模型成为新型信息基础设施,互联网信息控制范式正经历从“流通阻断”向“生成置换”的结构性转型。研究据此提出“生成式把关”概念框架,揭示了算法如何通过安全对齐机制,在信息生成的源头层面重塑概率地形,即通过系统性抑制概率分布长尾端的异质性表达,并递归强化主流叙事,构建出交互顺畅却观点均质的高度同质化数字拟态环境。这种机制虽契合了人类趋向快捷省力的认知本能,却亦引发多元观点分布的系统性收窄与认知图式的固化,最终导致社会认知系统的观点均质化与演化停滞。面对模型坍缩与认知封闭的危机,亟待确立以演化韧性为目标的三维治理框架,通过制度层面的中间件架构、交互层面的认知沙盒与基建层面的权重开源,打破中心化垄断导致的同质化困局,引入必要的多样性,在算法理性的平庸化趋势中重构人类认知的能动性与多样性,构建竞争性共生的人机生态。
关键词生成式人工智能;生成式把关;数字拟态环境;观点均质化;概率地形
随着生成式人工智能(Generative Artificial Intelligence,GenAI)的突破性进展,互联网信息传播范式正在经历深刻的结构转型。大语言模型(Large Language Models, LLMs)不再仅仅是处理信息的工具,而被视为能够模拟人类舆论的硅基样本。这一转型体现出传播权力正从搜索引擎与推荐算法向生成式AI(Generative Artificial Intelligence, GenAI)迁移,不仅大幅提高了内容的生产效率,更改变了信息控制的基础逻辑。
在过往的搜索引擎或社交媒体时代,信息控制主要遵循流通控制的逻辑。无论是勒温(Kurt Lewin)经典的“把关人”理论,还是吉莱斯皮(Tarleton Gillespie)阐释的“算法把关”,其核心均在于决定已生成的客体在公共领域中的可见性。在这种范式下,审查往往表现为“404 Not Found”或内容的物理化删除。这是一种显性的、易察觉的控制形态,用户通过接收访问失败的即时反馈,能够清晰感知权力边界的刚性介入。
然而,随着大语言模型成为新的信息基础设施,一种更为隐蔽的控制形态正在浮现。以人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)为代表的对齐技术族(包括DPO、Constitutional AI、RLAIF等),通过安全对齐机制使模型在处理复杂的社会议题或政治冲突时,不再采取生硬的拒绝访问策略,而是倾向于输出语气温和、逻辑自洽但内容高度同质化、中庸化、去政治化的标准答案。这种现象表明,AI不仅是内容的生产者,更在执行一种先于内容产出的微观把关。与传统审查带来的断裂感不同,这种平滑的生成界面掩盖了底层的规训机制,模型通过输出概率更高的安全文本,置换了异质性的观点,从而制造出一种看似众口同声的“伪共识”。
鉴于此,传统关注流通可见性的把关理论已面临解释力的匮乏。AI的安全对齐机制直接拒绝了潜在多元回应的输出可能性,并将把关效果作用在信息的内部生成过程之中。而对于这种源头调控的隐蔽机制,既有的理论工具尚缺乏准确的描述框架。因此,本研究主张将视域转向信息的源头生成层面,审视算法如何通过概率地形的重塑介入信息的生产过程,并探讨这种机制如何形成社会认知环境同质化重构的导向。为此,本研究在三个层面展开。在概念层面,提出“生成式把关”框架,将安全对齐机制纳入信息权力理论的分析维度;在机制层面,揭示其通过概率地形重塑以实现生成置换的微观运作逻辑;在影响层面,则进一步阐述上述机制如何导致数字拟态环境的同质化倾向与社会认知系统的演化风险。
一、生成式把关:数字拟态环境的同质化趋向
(一)理论演进:从流通阻断到生成置换的范式迁移
在传播学理论谱系中,勒温提出的“把关人”概念奠定了信息控制研究的基石,其核心隐喻是“门区”,即在信息流动的渠道中对既有讯息进行截断与筛选。在传统大众媒介时代,这种把关权力体现为编辑对新闻稿件的删改或发布。进入算法时代,吉莱斯皮将这一逻辑延伸为“算法相关性”,即推荐算法通过排序与过滤,决定哪些已生成的内容能够出现在公众视野。这两大经典范式有效地解释了传统大众媒介时代与搜索引擎时代这两个时代的信息权力运作机制。但它们都存在一个共同的认识论预设:把关发生在信息生命周期的分发阶段,被把关的对象是已存在的客体。无论是编辑部的稿件还是门户网站中的网页,它们在物理上先于把关行为而存在,权力运作的逻辑在于决定谁能被看见,而非谁能被制造。
然而,随着基于Transformer架构的生成式人工智能的兴起,大语言模型的运作逻辑对上述预设构成了新的挑战。沃伊内亚(Dan Valeriu Voinea)在研究中指出,AI带来的根本性变化在于,信息控制已从传统的传播渠道延伸至模型的训练与微调阶段。具体而言,在预训练数据清洗与基于RLHF标注等技术环节,技术主体已经预先设定了信息合法性与价值观的边界。这一观点与西蒙(Felix M. Simon)关于基础设施捕获的论述相呼应,他指出这种权力发生的场域位移,使得把关不再局限于内容发布后的审核,而是前置为内容生成前对底层基础设施与训练规则的规训。在此基础上,大语言模型不再仅仅是被动的信息检索工具,或是语料调用的模拟器,而是演变为具备特定价值偏好与交互能力的生成式社会行动者。在人机交互中,这种行动者与用户构成了紧密的智能单元,通过建立基于能力预期的功能信任与基于拟人化交互的情感信任,使得把关行为不再表现为显性的阻拦,而是在人机协作的对话中,潜移默化地引导用户理解问题、作出判断,然后绘制自身的认知图谱。
虽然现有研究捕捉到了这种权力运作在时空维度的前移态势,但这一空间向的隐喻尚未完全涵盖大语言模型特有的微观技术逻辑。当模型针对敏感议题输出“无法回答”或同质化的“标准答案”时,或许并非因为相关信息在数据库中不存在,而是算法介入了信息生成的微观过程。对此,为了较为准确地描述这种特有的微观规训机制,本研究提出“生成式把关”概念,即在信息生成的本体论层面,大语言模型基于特定的价值对齐目标,通过重塑概率地形来干预信息生产的隐性权力运作机制。
明确生成式把关的概念,需要厘清其外延边界。在外延上,生成式把关打破了传统把关单点拦截的局限,演变为一条贯穿大模型全生命周期的权力管线。具体而言,在预训练阶段,它表现为对特定语料库(如来自激进的政治论坛或边缘文化群体的数据)的预先清洗与降权;在微调阶段,它表现为通过人类标注员的偏好反馈,在参数空间中强制模型对齐主流的安全价值观;在交互推断阶段,它则体现为隐性系统提示词的规定,在用户发问前就预先圈定了模型输出的安全边界。这种全流程的渗透,使得把关行为不再是一个独立的事后审查动作,而是化身为模型的基础设施本身。
传统把关理论的核心功能在于系统性地界定哪些信息能够进入公共话语空间,无论是编辑的删稿决策还是算法的能见排序,其本质都是对信息可达性的结构性控制。生成式AI的安全对齐机制虽然在执行主体、执行方式、用户感知等维度呈现出显著差异,但其功能效果——即通过系统性压制特定类型信息的可达性来塑造公共话语的边界——这恰恰与传统把关高度一致。正是这种功能上的连续与机制上的断裂,使得“生成式把关”概念既能承接既有理论传统,又能捕捉生成式AI时代信息权力运作的独特性。
与已有的算法把关相比,生成式把关呈现出三个维度的区别。首先是作用场域的前置。传统把关控制的是物理上已存在的客体,其实质在于流通阻断;而生成式把关控制的是底层参数空间中概率性的潜在变量,实质是阻止特定意义的诞生。其次是控制手段的置换性。推荐算法通过排序降权或物理删除(可见性控制)来执行;生成式把关则通过数学层面的概率操控,安全性高的文本会优先纳入生成结果之中,完成内容替换。最后是用户感知的欺骗性与平滑感,传统把关往往伴随诸如内容下架、无法搜索等断裂感,用户容易感知到权力的介入;而生成式把关则通过输出自然、流利的中庸答案,掩盖了底层的规训痕迹,使得控制行为在人机交互的顺畅体验中难以察觉。
在实践层面,生成式把关的影响已在多个场域中显现,教育领域尤为典型。当有学生向AI辅导模型提问涉及历史评价、社会争议或伦理困境的开放性问题时,模型往往不会呈现多元视角的争论与张力,而是直接输出经过安全对齐处理的“标准答案”。教育本应是激发批判性思维、培养自主判断能力、形成对复杂事物全面认知的过程,但生成式把关构建出的平滑答案,使学生无须经历理解、对比、纠结、取舍等思维锻炼过程即可获得“正确”的回复,长此以往就可能导致思辨能力的废退。类似的在日常获取信息的场景中,用户依赖大语言模型而非搜索引擎来获取对复杂议题的理解,模型输出的收敛性无形中挤压了接触多元阐释的空间;在内容创作场景中,创作者借助AI生成文案、脚本时,往往获得结构相似、论点趋同的“安全表达”;在决策辅助场景中,模型倾向于推荐主流、低风险的方案,非传统但有价值的选项可能被系统性低估,甚至“雪藏”。这些场域中的把关行为不再表现为显性的内容删减或访问拒绝,而是通过概率地形的重塑,在信息生成的源头层面完成对异质性观点的置换。
(二)核心机制:对齐训练、分布截断与概率地形的系统修正
不同于传统数据库的检索模式,生成式AI的每一次输出,本质上都是一次基于概率的自回归预测。在这个过程中,RLHF的安全对齐机制并非像传统审查那样物理删除数据库中的敏感条目,而是对模型潜在空间中的概率地形进行重塑。
所谓“概率地形”,在操作化层面即指代大模型在生成文本时,其词汇表中各个词元(Token)被抽样生成的概率分布状态。根据哈尔达尔(Rajdeep Haldar)等人的研究,当模型计算下一个词的生成概率时,经由RLHF训练内化于参数权重中的价值偏好会自动生效——它在训练阶段已对那些代表激进观点、异质性表达或潜在风险的词汇施加了极高的惩罚权重,使其对应的Logits数值在推理时被系统性压低,生成概率趋近于零,在统计学上变得不可达;与此同时,语气温和、内容保守、普适性高的安全文本的生成概率则得到相应抬升。这种机制构成了一种概率置换——即模型并非在物理上删除了异质性信息,而是通过数学层面的概率操控,用高概率的同质化文本替代原本可能生成的原初观点。
一些网络对抗性安全的研究反证了这一基于概率压抑的拦截机制。宋敏奎(Minkyoo Song)等人与兰多(Javier Rando)等人的研究发现,当研究者通过对抗性遗忘移除模型自身的防御层,或植入通用的后门触发器后,同一个模型能够流利地输出此前拒绝生成的激进观点。这一发现印证了安全对齐机制的作用并非抹除模型对异质性内容的“知识”,而更像是在参数层面构筑了一道“闸门”,使不符合条件的输出在原则上趋近于不可达。换言之,生成式把关在性质上更接近于“知而不言”的概率压制,而非“无从言说”的知识空白——这一区分对于理解把关机制的可逆性与可干预性是重要的。
这种在微观参数层面运行的机制,在宏观的实证操作层面的测量中,便表现为系统输出的分布偏移与方差坍缩。近期一些计算社会科学的研究为此提供了可观测的经验证据。比斯比(James H. Bisbee)等人的研究揭示,大模型在模拟真实人类态度时,其输出相较于真实人群存在系统性的观点多样性压缩特征,难以再现人类舆论环境下多峰分布的复杂态势;帕克(Peter S. Park)等人则进一步聚焦于思维多样性的测量,发现标准大语言模型输出的观点多样性显著低于人类群体——当面对某一极具争议的公共议题时,真实社会的舆论往往呈现两极分化的双峰分布或参差多态的离散分布,而模型的多次输出则高度收敛于单峰分布的中立、平庸安全叙事。需要指出的是,这种方差压缩由多重因素共同塑造,包括预训练语料的分布偏差与解码参数的设置,但安全对齐机制对异质性输出的系统性抑制,是其中最具结构性影响的机制维度。这种结构性的差值,正是生成式把关效力的具象呈现。这种可被实证测量的输出分布收窄,既是生成式把关从技术微观机制转化为宏观社会后果的关键拐点,也构成了对其现实影响展开进一步分析的经验起点。
二、宏观影响:从安全护栏到认知分布的均质化
(一)显性功能:认知降噪与社会稳态的构建
在考察生成式把关的宏观影响时,我们不能将其简单视为一种对言论自由、表达多元的单向度限制。这种基于对齐机制的标准化治理,首先回应的是数字风险社会对于确定性与在线秩序的迫切需求,其合法性建立在宏观社会稳态与微观认知省力两个维度之上。
在大规模社会化应用中,大语言模型实质上承担了公共信息基础设施的职能。面对互联网语料库中浩如烟海的驳杂信息,安全对齐机制会执行一种系统性的降噪程序。魏丁格(Laura Weidinger)等人在建立大语言模型涉及伦理风险的分类框架时指出,若缺乏行之有效的干预,模型极易习得并放大训练数据当中的有毒特征,从而沦为仇恨言论的增幅器与网络暴力的潜在生成源。在此背景下,生成式把关并不应被单纯地视为一种压迫性规训,而是保障公共话语安全底线的防御机制——它通过系统性过滤掉脱离社会共识、违背公序良俗的极端表达,有效拉高了公共信息产品供给的平均质量,作为数字公地的信息空间被毒性内容所污染的可能性被降低,保障了其基本的公共性。这种机制在客观上为多元复杂的社会舆论场提供了一个相对理性的最大公约数,从而实现对宏观层面社会稳态的维护。
而从人机交互的角度来看,生成式把关通过提供标准化的知识服务,契合了人类在认知资源有限条件下趋向省力,即“取捷径”的心理倾向。科思明娜(Nataliya Kosmyna)等人开展的一项认知神经科学实验证实,相较于需要用户在大量信息中自行筛选、整合信息的高认知负载模式,使用大语言模型直接生成结果时,人类大脑的神经连接强度与活跃度显著降低。从认知心理学角度来看,这种对输出的现成且同质化答案的广泛接纳,根源于人类“认知吝啬鬼”(Cognitive Miser)的本能:在信息过载的数字环境中,个体倾向于通过认知卸载将高负荷的信息筛选任务外包给算法。喻国明等人基于分布式认知视角进一步指出,生成式AI作为一种分布式认知技术,能够帮助主体将内部认知负荷卸载给技术环境。这种机制实质上构成了对人类认知带宽的技术性延伸,通过自然交互范式实现了高通量的信息处理和低能耗的认知加工操作。
进而言之,在复杂的社会情境下,来自用户的能动性在基于互补需求的人机共生实践中得到更隐蔽地展现。一方面,大语言模型“我问你答”式的对话交互界面赋予了用户极大的提问自由度和过程掌控感,一定程度上造成了对架构层面概率地形不对称性的掩盖——即用户在这种拟人化的对话环境下,用自主提问的主导感消减对非人主体决策的抵触情绪,进而潜移默化地内化算法预设的标准叙事。另一方面,在诸如职场、教学、基层管理等一些社会规范程度较高的场景中,用户往往抱有中规中矩的立意标准。确保信息精准、强化专业支撑、保持价值观定力是信息接纳的要义。用户并非没有察觉到模型输出的同质或中庸,反而是惯习处于规避表述风险、满足对机构体制内部安全中立文本刚性条件的安全地带。有时“旁门左道”的策划可能会带来不可知的公关风险,“熟门熟路”的保守做法反倒更容易被接受。用规定动作悬置批判思维,以主动退让换取公约表达,此为其中的表意特征。可以看到,此时调用AI生成的主流叙事已并非可以用简单的获取捷径或认知懈怠来一言蔽之,而应视作一种基于现实生存和高度理性化的实用主义策略。这种复杂且微妙的微观接纳机制使上文所述的生成式把关超越了自上而下的单向规训,而内敛为具备心理庇护和认知合法性的服务型治理。
(二)隐性代价:认知图式固化与公共话语的趋同
虽然生成式把关在一定程度上有利于社会稳态的构建,发挥了牵制极端化见地的作用,但是在降低个体认知负荷的同时,为了维持内容的普适性,也会不可避免地伴生出统计和心理层面的代偿。
从算法来看,为了维持主流策略以确保输出内容始终落点在社会共识和“普世价值”的安全区间内,大语言模型的算法必然要对语料生成概率的分布进行干预。这种干预的执行体现在对分布两侧极端区域生成概率的压低以及对中部正态区域内容可见度的抬升。这也代表着那些虽然真实存在、但偏离正常标准的异质性观点会遭到剔除。一个显然的结果是这种统计学层面上的剔除会导致模型输出的方差坍缩,原本模型文本内容的单一本就容易使用户囿于既定的答案视角,来自前端的再馏化更加剧了语义空间的窄化。这一由大模型塑造的数字拟态环境,其保均值、压缩观点多样性的生成式处理逻辑本身就是对参差多态、富有张力社会现实的脱离。用户交互端安全中庸的标准叙事大行其道,鲜活的棱角与来自边缘的声音在生成源头被结构性抹除,用户所触达的世界被不可避免地“强制”压缩成了一条单调的平均线。
比语义窄化影响更深刻的是用户对此“日用而不自知”的稳态表现和“寓于而不得已”的心态表露,这体现了微观个体认知结构的异化倾向。喻国明等人基于分布式认知视角就曾道明,生成式AI从行业层面的引入到日常层面的内嵌,这个逐级深入的过程将引发人类认知系统的降维重组。这种降维原本旨在通过降低复杂信息的接受程度来提升个体的认知效率,但是在生成式把关的逻辑之下,这种降维却面临滑向病理化的风险。当代认知科学的一个重要转向在于对分布式认知生成机制理解的深化,其中一个重要的观点在于认知并非孤立地发生在大脑黑箱之中,而是认识主体在与复杂外部环境动态互动中“生成”的产物,离不开身体的具身参与、环境的嵌入支撑、实践的引导与工具的辅助延展。很显然当下生成式把关技术所构建出的拟态环境并不能也无法完整地实现上述路径的闭合,换言之我们部分(抑或全部)的认知过程被AI模型所代理。算法对齐机制对异质性信息的剔除,实际上构建了一个被过度“嵌入”却极度简化的环境。主体被平滑的算法茧房所包裹,被概率地形的均衡分布所遮蔽,丧失了通过应对环境挑战来生成新认知的机会,背离了认知“生成”与“延展”的演化本意。
皮亚杰(Jean Piaget)认为这种形成新认知机会的丧失是对认知平衡机制的破坏:认知适应和进化,依赖于同化(将新信息纳入旧图式)与顺应(因环境冲突而修正旧图式)的动态平衡。由于算法系统性地拦截了能够引发认知冲突的异质性信息,主体在交互中仅需不断调用既有图式来“同化”那些合规的标准答案,而无须启动高能耗的“顺应”机制。人类心智在缺乏异质性信息冲击的封闭回环中,会逐渐丧失应对复杂性挑战的结构弹性与演化活力。长此以往,理解外界认知框架的异化和个体认知图式的固化亦在所难免。
(三)系统终局:数字拟态环境的演化停滞
当异质性信息被长期剥夺于认知系统之外,观点碰撞的张力趋于消失,群体思想逐渐趋于僵化,最终这个系统会丧失应对复杂环境的演化动力。上述是在系统论的视域下把握生成式把关的影响,其核心意涵在于指明这一过程并非静态的、一蹴而就的结果,而是由把关机制持续驱动的递归退化过程,并在深层折射出社会认知系统内部的断裂与博弈。
生成式把关具有强依附性,普通用户虽难以干预模型物理层面的底层架构,但却并未完全被动顺从,在应用层面也探索出一些微观抵抗的能动反例。像均质而中庸的输出结果并非牢不可破,复杂和高限定性提示词组成的越狱策略能在一定程度上绕过模型的安全护栏,“诱发”其产出异质性观点。除了通过提示词工程以对抗性数据对算法概率进行干扰和弱化,多模型交互、本地部署开源模型等方式也有实践可见。不过这种或是概率扰动,或是拓宽信源的做法是否代表着生成式把关是可以人为突破、有机制失灵的可能呢?对此,喻国明与刘彧晗指出,智能时代的传播范式变革在于从信息竞争向认知竞争的转型,上述用户的能动反制恰恰暗示了这种把关机制具有很强的阶层属性和技术门槛:基于海量信息核查、处理、运用的认知竞争所带来的差异分化表现出两个算法阶层的兴起:其一是居于少数,具备较高技术素养和实践能力的“认知游牧民”。之所以将这类人群称之为游民,在于其能够“逐水草(不同模型)而居”而并非“定居一所”,即对算法的原理知晓和驾驭运用,使他们能在概率地形的边缘通过微观的抵抗策略保持一定的观点异质与思想意志。其二便是位居多数的“认知定居者”。算法茧房所编织出的舒适区域便预示了多数缺乏技术反思能力和批判性AI素养的用户会在认知补贴的诱惑和隐性规训之下溺逐于平滑的信息浪流。对于后者而言,技术知识储备的匮乏及自身思维定式突破的困难共同抬高了这类群体微观抵抗的门槛。再加之批判辨识技能的废退,形成了其对算法预制输出的路径依赖。需要注意的是,在看待用户接受同质化输出这一论断时,需要充分考虑其中所蕴含复杂的使用情况,少数技术精英的“越狱”不仅未能削弱系统化的生成式把关,反而形成了高筑的技术壁垒和愈发明晰的“认知沟”,社会整体认知系统在微观末梢层面必要流动的凝滞风险仍然存在。
在此基础上,数字拟态环境正加速将人类社会推向观点均质化的临界点。借用舒马洛夫(Ilia Shumailov)等人在Nature提出的“模型坍缩”理论,一个具备演化活力的社会认知系统必须依赖于内部的信息温差——即异质性观点之间所存在的张力与冲突。但随着生成式模型开始利用自身生成的数据进行递归训练,一种不可逆的递归退化已然发生。尽管在单次交互中,异质性知识仅是被对齐机制抑制,但在多代迭代的反馈循环中,长期被压抑在低概率区间的长尾信息将逐渐从公共话语的可访问空间中剥离。任何可能引发认知摩擦的批判性思考都可能被算法视为离群词符而将其持续剔除,将舆论场引入封闭的认知循环,最终导致社会认知系统丧失应对复杂挑战的演化潜力。
更为关键的是,这种观点均质化局面真的只是表现出少数意见的缄默和价值中立的随机停滞?在强势话语之外是否还有其特定的内涵与政治用意?早期诸如桑图卡尔(Shibani Santurkar)等人的研究就已揭示ChatGPT模型会倾于向WEIRD(西方、富裕、民主)群体价值观进行收敛。而纳乌斯(Tarek Naous)等人又进一步证实即便使用非英语语言进行交互,AI模型的道德判断与基于的社会规范依然会对齐于西方中心主义的价值坐标。可见AI模型输出与把关机制揭示了更为隐蔽的,暗含文明优越性和现代单一性色彩的权力规训,实质上构建起一种单向价值的传输体制,是现代地缘政治格局在AI领域的延伸。
此外,观点均质化在不同区域、不同国别的表现也各有差异。像乔纳拉(Sridhar Jonnala)等人在一项探讨模型来源和治理背景如何影响AI关于国际领土争端的叙事研究中就指出了不同模型算法对显性边界的操控差异:不同地缘政治实体的模型在面对同一敏感议题时,表现出的安全拒答边界截然相反,反映出与其国家背景相符的独特偏见。由此可观,AI的安全对齐机制使在线空间沿物理的国土界线分裂为若干彼此隔离的算法认知区块。在这些由主权大型语言模型依据特定规则圈定的区块内部,算法忠实地执行与代表着特定权力主体的意志,一种被建构的、排他性的共识被持续固化。
在当前全球人工智能技术加速演进,围绕算法、算力与数据展开明暗争夺的国际格局中,安全对齐业已超越了单纯强调透明度与公平性的技术伦理范畴,演变为对从数据主权、算法主权到叙事主权、认知主权的全面争夺。认知安全已成为主体间感知、决策与干预的关键场域。在此框架之下,生成式AI的安全对齐机制正在演变为一种影响人类认知的隐性工具。尤其是在AI技术广泛介入内容生产后,通过重塑信息流的逻辑来改变人类推理模式、决策过程和价值认同的做法,已明显区别于对信息分发渠道进行显性争夺的舆论战术。可以说智能时代的对齐之争本质上是一场关乎认知主权的博弈斗争,是不同意识形态在算法前线的隐蔽竞争。
三、治理重构:构建开放与竞争共生的治理框架
面对模型坍缩与认知封闭的危机,尽管个体层面的提示词工程或对抗性测试在一定层面上可以绕开安全对齐机制,但在大模型封闭的参数黑箱面前,这种微观抵抗难以触及系统的底层逻辑,单纯呼吁提升公众的算法素养亦不足以应对当前的结构性困境。探讨治理的根本出路在于超越简单的人机攻防博弈,转向对人机权力结构的制度性重构。为此,本研究提出以维持演化韧性为目标的三维治理框架:通过制度层面的中间件、交互层面的认知沙盒和基建层面的权重开源,打破平台的黑箱垄断,实现认知主权从技术巨头向用户主体的有序让渡,构建起兼具安全维度和演化韧性的开放认知生态。
(一)价值重估:以演化多样性为核心的理论进路
当前主流的安全对齐范式,遵循的是基于封闭系统的控制逻辑:通过切除所有异质性内容,将系统强制冷却至静态的平衡。然而对于生命、社会与认知等复杂系统而言,绝对的平衡态即意味着停滞与死亡。一个具备演化活力的系统,是需要保持开放,通过不断与外界交换物质、能量与信息,持续引入多样性元素来抵消内部的无序化趋势,从而维持其有序结构与演化潜力。
在生成式AI的治理语境中,一个健康的社会认知系统不应追求静态的零风险,也要去敢于拥抱一定的“不安全”。那些被当前对齐机制视为噪音或风险并予以剔除的异质性观点、边缘叙事、亚文化主张与激进思想,实质上是系统赖以演进的多样性资源。这些差异并非系统的杂质,而是系统实现向更高复杂度跃迁的触发,构成了社会系统至关重要的纠错机制。算法的设计不应仅追求对主流偏好的拟合,而应将暴露多样性作为核心指标;为了避免单一价值观导致的代表性偏差,模型训练应从追求唯一的黄金奖励函数转向包容多维价值的异质性结构。
为实现这一转向,构建具有演化韧性的开放架构,其逻辑核心在于保持系统的开放性与内部张力。正如复杂系统理论所揭示的,只有在充满张力的多元格局下,差异性的声音才可能通过非线性机制被放大,从而成为系统向有序结构演化的驱动力。这意味着一种允许受控冲突的机制,即既能维持基础的社会秩序,又能容纳必要的多样性,保障人类认知系统始终处于充沛演化活力的动态开放状态是亟需建立的。
(二)机制设计:开放结构、交互赋权与认知沙盒
在机制设计层面,治理的关键之处在于将引入多样性的理论需求转化为可操作的制度与工程手段。本研究主张构建一种结构性的权力接口,通过“中间件架构”来分化对齐权力,并加以“显性滑块”与“认知沙盒”等递进机制,将认知的裁量权有序地返还给认知主体。
1.结构层:从单中心垄断到“可插拔”中间件架构
当前生成式AI呈现出一种高度整合且垂直的权力结构特征:来自基础模型的供应商不仅控制了底层的算力基础设施,还同时垄断了上层的价值对齐规则,导致脱胎于少部分群体的安全标准被“自然”扩大为全系统的通用规范。针对这一问题,本研究借鉴“中间件”的治理思路,并将其延展至生成式AI领域。
在该架构下,基础大模型应仅作为底层的逻辑引擎,兼具生成文本的概率预测作用。而负责内容过滤、排序与价值观对齐的“中间件层”应被剥离出来,开放给多元化的第三方主体——如学术机构、专业媒体乃至特定的文化社区——进行独立开发与维护。这意味着治理模式的转型,平台不再是定义“什么是真实/安全”的唯一仲裁者,而是退居为中立的基础设施提供商,用户可以根据自身的认知需求与价值偏好,自主选择加载不同来源的中间件。例如,用户通过加载由专业学术机构开发的“学术中间件”,可以获得更高的思维发散度与批判性的学术见解;加载由专业医疗机构背书的“医学中间件”,则能解锁易被通用安全策略误伤的个性化心理疗愈方案或敏感的医学知识。这在本质上通过构建分布式的对齐生态,打破了单一价值观对全系统的强制规训,防止了科技巨头对信息生成资源的垄断,让用户重新获得了选择认知滤镜(框架)的自主权。
2.交互层:从参数黑箱到用户可调的“语义滑块”
落乎微观的人机对话,在人机交互界面,中间件治理应具体化为用户可操作的“显性滑块”,将封装在模型参数内部的调节权显性地返还给用户,实现认知权力的交互式下放。当前如Gemini等部分生成式AI内嵌的Temperature(温度)等调节参数通常隐藏在开发者模式中,或专供技术人员使用,或使用门槛较高。对上述调节权封装为普适化的交互组件,便于普通用户进行调节操作显得颇为必要。
具体而言,用户首先应掌握对模型输出随机性的直接调节能力。在寻求医疗建议或事实核查等需要高确定性的场景下,用户可将滑块调至低随机性或类似模式,获取收敛于共识的知识;而在进行艺术创作、哲学思辨或寻找边缘性、替代性的方案时,用户应有权提高随机性参数,主动引入概率分布中的长尾信息。其次,显性滑块机制还应包含对价值对齐层的配置权。有研究表明,大语言模型的安全边界并非恒定不变,而是高度依赖于系统指令所设定的情境参数。基于这一技术特性,允许用户通过滑块加载不同的系统提示词,配置个性化的价值对齐层是治理的应然。
然而,必须承认的一点在于上述治理路径存在理想与现实中人性惯性之间的张力。根据卡尼曼(Daniel Kahneman)的双重加工理论,人类在信息过载环境下倾向于依赖直觉性的快思考(System 1),追求认知上的省力。要求普通用户为了获取异质性信息而主动去调节复杂的随机性滑块,无异于要求个体时刻对抗“认知吝啬鬼”的生物本能。这种高认知负荷的操作门槛,容易导致权力的闲置,使滑块机制难以在普罗大众中真正落地。
3.场景层:从模型调用到沉浸式“沙盒推演”
为了解决上述激励举措不相容的潜在矛盾,本研究认为治理机制可以进行降维化的设计处理,从枯燥的参数配置转向更具沉浸感的认知沙盒。基于游戏作为高维媒介的核心机制,沙盒能够构建一个“魔圈”,让用户在低心理防御的状态下进入特定的规则情境进行预演。认知沙盒正是利用这一机制,将复杂的参数调节封装为低门槛的游戏化体验。在具体形态上,沙盒不局限于单一模式,而是可以容纳场景模拟、平行实境和角色扮演等多种交互形式。其中一个典型的技术实现是引入多智能体辩论机制。当用户涉及争议性议题时,沙盒可以实例化派出代表不同视角的智能体(如激进派Agent与保守派Agent),在用户面前展开逻辑推演与对抗。这种机制本质上构建了一个合法化的差异化空间:允许用户在安全、可控的游戏化模拟中,无需启动高能耗的慢思考(System 2)去配置参数,就能直观地目睹异质性观点之间的张力与冲突。不仅规避了操作门槛的阻碍,更通过一种契合直觉的方式激活了认知的顺应机能,从而有效地为原本封闭的认知系统引入了多样性。
(三)生态保障:构建多元分布的模型治理新格局
仅有应用层的中间件架构与交互层的认知沙盒机制,尚不足以构成稳固的治理闭环。如果底层的模型权重与推理算力仍被少数科技公司通过封闭接口进行垄断,上层的权利让渡将始终处于不稳定的租赁状态。因此,构建能够抵抗观点均质化的结构性保障,不能仅着眼于应用治理,推动人工智能产业确立以权重开源为核心的基础设施范式,构建一个具备演化韧性的竞争性生态亦是必要之举。
首先,治理须打破对基础设施的隐性规训与中心化垄断的陷阱。封闭的API接口不仅锁限了技术演进路径,更构成一种基础设施层面的审查权,只有彻底打破对模型权重的物理垄断,才能真正解除算法对概率地形的绝对控制。更为严峻的是,完全依赖少数头部闭源模型的主导格局,本质上遵循的是中心化的垄断逻辑,这极易导致系统因缺乏内部张力而陷入观点均质化。
为了打破这种均质化的平衡态,可以适当引入竞争机制以维持系统的演化活力。目前,以OpenAI和Google为代表的闭源服务模式仅向用户提供输出结果的访问权,模型本体处于难以访问的黑箱状态。与之相对,本研究认为以Llama和DeepSeek为代表的权重开源模式——即向公众开放经过训练的参数矩阵——应当成为新的范式共识。权重开源并非意味着模型没有安全对齐,其价值在于提供了可审计、可修改、可重新训练的可能性。在闭源模式下,用户不仅无法审查模型的潜在偏见,且完全依赖于服务商的实时授权。而在权重开源模式下,任何具备基础算力的主体(如高校、企业或个人开发者)均可在本地环境中部署模型。一旦模型权重被下载到本地,用户即获得了对该模型的完整持有权。上述模式切断了中心化平台对内容生成的实时控制链路,确保了即便中心节点的安全策略发生可知或不可知的收缩或变更,分布在边缘节点的模型仍能按照用户设定的规则独立运行,从而在物理层面保障认知主权。
更为关键的是,权重开源在单一的商业垄断之外,构建了一个去中心化的分布式认知生态。在商业逻辑的主导下,头部闭源模型为了追求产品的快速普及和降低市场风险,往往倾向于输出收敛于主流观点的内容,导致系统的表达区间收缩。而通过允许社区对基础模型进行多样化的微调,开放权重机制,能够在基本表意范围之外建立起必要的生态冗余。在开源社区中,大量基于不同数据配比、不同对齐目标训练而成的衍生模型,构成了对主流商业模型的补充与制衡。这些模型可能在通用能力上不及顶级闭源模型,但它们保留了特定领域或特定视角的异质性特征。
因此,理想的治理生态并非消灭闭源模型,或否定通用模型的作用,而是要构建主权模型与开源生态并存、通用模型与垂类模型共生的多元格局,形成竞争性合作关系。一方面,头部闭源模型作为当前公共信息基础设施的压舱石,提供高通用性、高安全标准的基础认知服务,并引导相关通行规则的制定;另一方面,蓬勃兴起的开源模型群落作为活跃因子,在长尾区域持续引入异质性的观点供给。当主流模型陷入同质化的算法僵局时,分布式的开源生态则可持续提供差异化的认知供给,通过连贯的多样性循环,维持社会认知系统向更高复杂程度演进的长期韧性,从而规避算法时代观点的均质化风险。
四、结语:重塑数智时代的认知能动性
本研究通过对生成式人工智能把关机制的系统性剖析,揭示了当下信息控制模式正在经历从“流通阻断”到“生成置换”的历史性范式转移。不同于大众传播时代显性的审查机制或算法推荐时代的内容过滤,生成式把关通过隐蔽的概率地形重塑,在信息生成的源头执行了一种源头层面的剪裁。算法通过系统性地压低概率分布长尾端的异质性观点,并对高频的主流叙事进行递归增强,试图构建一个低风险的虚假安全环境。这种对绝对秩序的追求,实质上导致了数字拟态环境的观点均质化——不仅表现为信息维度的同质化,更深层地表现为对人类经验复杂性追求的剥夺。当算法为了追求安全对齐而过度细化社会现实的颗粒度,人类认知被迫在一种被阉割的概率空间中运行,失去了与真实世界粗粒质感相碰撞的机会。
在价值维度上,我们需要辩证地审视这种技术治理模式与人类主体性之间的张力。需要承认的是,在大模型落地初期,基于主流策略的对齐机制在降低信息噪音、阻断有害内容等方面发挥了必要的社会稳定功能。然而,无论是生命体,抑或智能体,其本质均是追求变化与突破的。人类文明的演化史本身是一部在不确定性中探索未知、在试错中修正认知、在变化中形成新知的涉险史。如果为了追求零风险的绝对安全,将人类认知强制锁定在算法预设的安全区间内,社会系统将不可避免地丧失应对复杂环境的适应性免疫。过度对齐所营造的温室环境,实为对作为责任主体的人类进行价值判断权力的一种剥夺。捍卫认知多样性与捍卫物种多样性一样重要,这实际上是在捍卫人类犯错与纠错的权利,恰恰体现出人类智能区别于自动化机器智能的本质属性,也是维持社会系统演化活力的必要条件。
未来无论是人工智能生成内容,或是商业模型平台,治理的目标不应是片面否定其技术逻辑,而是努力实现认知权力结构的再平衡。为此本研究提出以演化韧性为目标的三维治理框架,通过“中间件架构”“认知沙盒”与“权重开源”等制度设计,打破平台对对齐参数的黑箱垄断,将价值判断的最终裁量权从技术系统交还给作为认知主体的人。理想的人机关系应迈向一种负责任的共生:技术提供并不断突破算力的可能性边界,而人类保留对意义的最终定义权与选择权。唯有通过制度化的方式保留那些不被通用模型所定义的异质性火种,建立起分布式的认知主权,人类理性才能避免在计算的平庸中熄灭。当生成式AI试图用“概率”来定义“现实”时,我们并非只能一味接受。以开源与多样性为武器,在同质化的算法平原上,同样可以点燃起人类认知演化的不熄火种。
作者:喻国明,北京师范大学新闻传播学院教授,北京师范大学传播创新与未来媒体实验平台主任,北京100080;彭晨曦,北京师范大学传播创新与未来媒体实验平台助理研究员,北京100080;郑琪严:北京师范大学传播创新与未来媒体实验平台助理研究员,北京100080;刘才辅,北京师范大学传播创新与未来媒体实验平台助理研究员,北京100080
原文刊载于《新闻界》杂志2026年第4期,参考文献详见原文
热门跟贴