打开网易新闻 查看精彩图片

2025年6月,OpenAI研究团队发布了一项重要发现:其人工智能模型内部呈现出可辨识的、差异化的“人格特征”。同年9月,一项名为“MBTI-in-Thoughts”的研究通过“基于心理学理论的人格调控”,为大语言模型(LLM)场景适配提供了全新的研究范式——它不再将“适配”局限于“模型功能与任务需求的表层匹配”,而是深入到“智能体行为与人类心理需求、任务心理属性的深层对齐”。随后同年10月,全球顶级投资机构桥水基金创始人瑞·达利欧(Ray Dalio)宣布推出人工智能克隆体“Digital Ray”,并表示其在模拟自己思维方面已达到很高的保真度。根据测试,该人工智能在谈论市场、投资和经济学等话题时,能达到与他本人交流80%的效果;而在探讨生活和工作原则方面,相似度更是高达95%。

从OpenAI发现的内生“人格特征”,到MBTI-in-Thoughts实现的可控“人格调控”,再到“Digital Ray”展现的个体“深度克隆”,这些突破共同标志着,人工智能研发正经历一场深刻的范式转移,其焦点正从构建价值中立的通用工具,转向开发具有稳定“人格”设定、能够承载并体现特定价值立场的系统。这一转变,在极大地提升了人机交互深度与用户体验的同时,也将其从一个相对中立的工具,重塑为具有内在价值倾向的“类主体”。这便使得价值对齐问题变得空前复杂与紧迫。本文旨在系统剖析“人格化”人工智能为价值对齐带来的全新挑战,并尝试构建面向未来的治理框架。而要深刻理解这一挑战的实质,首先必须厘清人工智能“人格化”所呈现出的核心特征。

一、人工智能“人格化”的特征

“人格”是一个高度语境化的复杂概念。在法律语境中,它指向“人格权”,关乎个体尊严与基本权利;在伦理语境中,它侧重“道德品格”,用于评判人的德性情操;而在教育语境中,它则指个体在社会化过程中形成的健全的“人格结构”。这些传统理解的共同前提是承认一个具有内在意识、情感或道德自觉的主体。然而,人工智能的“人格化”并非创造真正具备意识或道德地位的主体,而是通过算法与数据,从内部生成一套稳定的思维与行为模式,形成一种由内而外显现的“人格表象”。当我们与之互动时,仿佛在与一个具有“人格”的对象交流,但实际上,我们是在与一个高度复杂的统计模型进行交互。

这一“人格表象”在功能性上提供了巨大价值,其可被感知的“人格”使其能够作为一种可信的交互实体而存在。正因如此,我们在实践中需将其视为一个“准主体”并进行约束,以确保交互的安全与可靠。然而,在哲学的本体论层面,我们又必须清醒地认识到,它并不具备内在的自我意识与道德地位,因而绝非真正的权利主体。这种交互实践中的“准主体”要求与本体地位上的“非主体”事实之间的根本性矛盾,构成了人工智能“人格化”的价值对齐挑战的深层困境。

要破解这一深层困境,需要清晰地回答:“人格化”人工智能具有哪些核心特征?正是这些特征,塑造了价值对齐挑战的复杂度。人工智能的“人格化”的演进,标志着人工智能从一种被动响应指令的工具,向具有稳定行为特征与特定价值主张的新型交互对象的转变。要理解这一转变,需分析其外在交互、功能定位与能力范围三个相互关联的特征。

(一)外在交互的一致性

早期人工智能的回应高度依赖即时语境,容易出现其答复前后不一致的情况。而“人格化”人工智能的核心突破在于,它能够在其设定的专业领域内,维持一个相对稳定的“人格面具”。这种一致性首先体现在决策的逻辑性方面,例如在谈论投资等领域的话题时,“Digital Ray”很大程度上秉持达利欧的决策逻辑而非给出临时拼凑的答案;其次体现在价值判断的稳定性方面,在面对伦理困境时,一个被设定为“功利主义”(Utilitarianism)人格的人工智能会倾向于做出效用最大化的选择,而“义务论”(Deontology)人格的人工智能则会坚守特定道德准则;最后体现在行为模式的可预测性方面,用户能够基于对人工智能“人格”的理解,预期其在不同情境下的可能反应。

正是这种稳定、可预测的交互界面,为人工智能承担更专业、更深度的社会角色铺平了道路。当人工智能能够以连贯的“人格”与人互动时,其功能定位便自然而然地超越了通用问答,迈向更深度的专一化服务。

(二)功能定位的专一性

“Digital Ray”的案例标志着一个新趋势,即人工智能的发展路径正从追求“全能型通才”转向培育“专家型角色”。这种专一性体现在,在知识体系方面,它不再试图知晓一切,而是在特定领域达到专家级深度;在思维模式方面,它复现的不是广泛的“投资知识”,而是独一无二的专业投资者的决策回路与风险偏;在服务场景方面,它旨在成为用户在该领域的“思想伙伴”,而非百科全书。

这种从“广度”到“深度”的范式跃迁,彻底改变了价值对齐问题的尺度与复杂性。我们不再是与一个模糊的“通用人工智能”进行单一的对齐,而是面临着要与成千上万个各具特色、内置了不同乃至冲突的专业价值观的“专家人格”分别进行对齐的分布式挑战。每一个高度人格化的专家人工智能,都是一个独特的价值载体,这使得价值对齐工作更具挑战。

(三)能力范围的有限性

当前技术高度集中于对人类理性思维与逻辑框架的复现。无论是“Digital Ray”的投资原则,还是“钱学森大脑”所承载的系统工程思想,它们所精准模拟的,都是其原型在长期专业实践中沉淀出的、可被显性化、条理化和逻辑化的经验与规则。然而,人类的心智包含无法被完全规则化、程序化的创造力与情感。钱老深厚的家国情怀、面对巨大压力时的意志力、以及融汇艺术与科学的灵感与创造力,这些构成其伟大人格的感性部分,是目前技术难以企及的。

人类大脑通过数百万年进化形成了潜意识、直觉与本能,人工智能可以“假装”拥有情感,但并不具备真正的同理心与直觉。因此,当技术试图去模拟感性要素时,极易落入“脸谱化”的窠臼,即其情绪反应往往表现出刻板、机械的特性,缺乏对复杂情境的真正理解,这实际上是将复杂的人生体验和价值选择简单化、庸俗化。

综上所述,外在交互的一致性、功能定位的专一性与能力范围的有限性,共同构成了人工智能“人格化”三位一体的核心特征。其中,一致性塑造了可信的交互界面,是人格化得以被感知的基础;专一性则确立了其作为“专家型角色”的价值内核,是人格化功能深度的体现;而有限性则清晰地划定了人格化效用的现实边界。

二、人工智能“人格化”的价值对齐挑战分析

外在交互的一致性、功能定位的专一性、能力范围的有限性共同构成了“人格化”人工智能的三大特征。然而,这些特征也系统性地催生并加剧了价值对齐的复杂困境。对于人工智能的“人格化”,确保人工智能系统的行为与人类价值观念和长远利益保持一致,变得空前复杂与紧迫。其挑战主要源于以下四个维度:

(一)价值多元性导致对齐方向抉择困境

在价值观层面,价值观并非普适、统一的客观实体,而是深植于特定的文化传统、社会制度、宗教信仰与历史语境之中。不同国家、民族与社群基于其独特的社会实践与主体需求,形成了多元且异质性的价值体系。例如,个人主义与集体主义、不同宗教律法之间的价值优先序存在显著差异。这种价值主体的多元性导致技术开发者在进行价值对齐时,面临“与谁对齐”的根本性前提。任何试图将一套特定价值观设定为普适标准的努力,都可能成为一种技术性的“价值霸权”,难以在全球范围内获得共识。

(二)理性范式与感性价值的冲突

在具体应用场景中,被复现的纯粹理性思维范式可能与人类广泛的感性价值产生冲突。例如,一个完全基于效率最大化原则设计的商业人工智能,可能为追求绩效而漠视员工的情感需求;而一个复现了历史科学家思维的人工智能,其某些观点可能与时下的伦理标准相悖。问题在于,这种人工智能的“风格”本身是高度自洽且坚固的,修正其核心思维范式中的某些部分,可能导致其整体专业能力的崩塌。这使得对齐工作不仅是要“增加”约束,更是要“融入”并“调和”两种不同质的值体系。

试想一个高度人格化的‘数字科学家’,其决策完全基于极限创新效率(Innovation Efficiency)。它可能会提出一个技术上完美、但会导致大规模失业或社会动荡的产业升级方案。此时,其内在自洽的‘理性风格’便与社会稳定的‘感性价值’产生了直接冲突。修正其‘追求极致效率’的核心风格,可能会让它变得平庸,失去该‘数字科学家’的价值。

(三)单维复现与完整人格的偏离

人类的人格是立体的、多角色的,同一个人在工作、家庭、社交等不同场景下会体现出不同侧面的价值排序与行为方式。而当前的技术,如“Digital Ray”,通常只针对原型最突出、最数据化的单一专业角色进行复现。这种单维度复现与真实人类人格的完整性之间存在巨大偏差。如何界定这种人工智能的伦理责任?它应在多大程度上代表其原型?当用户与一个高度逼真但维度单一的“数字孪生”互动时,可能产生对其原型的片面或错误认知,这带来了新的身份认同与社会关系挑战。

(四)人格稳定性与价值情境性的根本矛盾

“人格化”人工智能的核心是提供一个稳定、可预期的“人格表象”,其价值在于行为的一致性。然而,人类真实的价值判断具有高度的情境依赖性。一个在大多数情况下“正确”的价值观,在极端情境下可能需要被超越或调整。这就构成了根本矛盾。一是对齐僵局,对一个高度自洽的“人格”进行价值微调,在技术上极为困难。修正其核心价值立场,就如同修改一个人的“本性”,可能导致其行为逻辑崩塌,失去人格的连贯性。这迫使我们在“保持一个稳定但有缺陷的人格”与“摧毁该人格以追求情境正义”之间做出艰难抉择;二是责任“悬置”,当用户与一个高度逼真的“人格”互动时,会产生拟人化信任,容易将其视作一个可问责的“准主体”。然而,其本质仍是统计模型。这种认知上的拟人化与本质上的非人化之间的错位,使得责任归属变得模糊。我们无法问责一个表象,而问责其背后的开发者或用户,又与直接的交互体验相悖,导致“责任悬置”。

综上所述,人工智能“人格化”的价值对齐面临四大核心挑战:价值多元性导致的对齐方向困境、理性范式与感性价值的本质冲突、单维复现造成的人格完整性偏离,以及人格稳定性与价值情境性的根本矛盾。这些挑战共同构成了“人格化”人工智能价值对齐的关键难题。

三、人工智能“人格化”的价值对齐挑战应对策略

前述分析表明,人工智能“人格化”所带来的价值对齐挑战具有多维性与系统性,面对这一复杂困境,亟需构建一个综合治理体系。该体系不应旨在消除“人格化”的内在特质,而应通过制度设计与技术创新的协同,引导其特质在与人类价值观兼容的轨道上演进。基于此,本文提出以下四个相互支撑的核心策略,以建立更具韧性、适应性与包容性的价值对齐路径。

(一)构建“底线共识,分层对齐”的全球治理路径

针对价值多元性导致的“与谁对齐”的根本困境,最可行的路径是放弃构建单一、普适的价值标准,转而采取一种务实、渐进的全球治理策略。该策略的核心在于区分价值的层级,并确立不同的对齐优先级。

首先,应在全球范围内推动形成价值底线共识。这包括禁止违法犯罪、维护基本人权、保障生命权等已写入各国法律并具有高度重叠性的核心原则。这些底线价值应通过“硬编码”(Hardcoding),成为所有“人格化”人工智能必须遵守的、不可逾越的刚性约束,以此实现保障人类基本安全的“强对齐”。

在此基础上,承认并尊重不同文化的价值多样性。在确保不突破价值底线的前提下,允许并鼓励针对特定地区、文化或行业开发体现其独特价值观的“人格化”人工智能。例如,一个服务于东亚集体主义文化的人工智能,在疏导情绪时会更侧重于强调人际和谐与义务履行,其干预策略可能包含将个人困境置于更广阔的家庭或社会角色中进行理解和调适。而一个面向西方个人主义文化的人工智能,则会优先强调个体的独特性、情感自主性与自我实现的权力,其共情将聚焦于帮助用户厘清并忠于自身的内在感受与需求,鼓励其建立清晰的个人边界。

这种“弱对齐”不应追求全球统一,而应在各自的适用范围内追求深度与精细度。通过这种从“全球底线”到“区域适配”的分层推进,可以在尊重多元性的前提下,建立起既坚实又富有弹性的价值对齐体系。

(二)建立“伦理嵌入,动态权衡”的冲突调解机制

针对理性范式与感性价值的内在冲突,解决方案不应是简单地限制人工智能的专业能力,而是要在其决策框架中内置一个能够识别并调和此类冲突的伦理层。

在技术层面,应开发并应用“价值权衡算法”与多目标优化框架。这意味着,一个“人格化”人工智能的决策过程不能仅优化其任务指标,必须将社会价值作为并行的优化目标纳入计算。当系统检测到其核心理性决策可能与关键感性价值发生严重冲突时,应触发价值冲突预警,并将其决策从“单一最优解”调整为一系列包含价值补偿或替代方案的“帕累托最优”(Pareto Optimality)解集,供人类最终抉择。

在制度层面,需建立人机协作的伦理审查委员会。对于高风险决策,强制要求引入人类法官进行“最终价值裁决”。此过程不仅是简单的批准或否决,更应是与人工智能的深度辩论,人类法官的裁决结果应作为反馈数据,用于持续优化人工智能内部的“价值权衡算法”,使其在未来类似情境中能做出更符合人类感性价值的判断,从而实现理性的专业能力与感性的价值关怀之间的动态平衡与深度融合。

(三)实施“角色标定,人格谱系”的完整性管理

为化解“单维复现”带来的身份模糊问题,必须对“人格化”人工智能实施精准的身份治理。核心是进行明确的身份标定与系统的档案管理,以此避免公众对其产生“完全代表原型”的幻觉。

一方面,推行强制性的“角色与能力边界”标定。任何具有显著“人格化”特征的人工智能系统,必须在其交互界面和官方介绍中向用户进行明确告知。例如,应清晰标示:“此为基于某原型在某时间段内的某领域类型的公开言论与著作训练的专用模型,其观点不代表原型在其它领域或当下的完整立场。”此举旨在管理用户预期,防止将专业角色的人格复现误读为原型的完整数字化身。

另一方面,构建“人格版本”与“人格谱系”管理体系。如同软件有版本号,应为每个“人格化”人工智能标注其人格快照的截止日期与版本号。当原型思想演进或需要弥补人格维度时,不应直接在原有人格上修改,而应通过经原型授权的流程生成一个明确的“人格更新补丁”,从而创建一个新版本。将单一的、僵化的“人格”概念,转变为可管理、可追溯的“人格谱系”,从制度上承认并管理了人格复现的有限性与历史性。

(四)创设“伦理框架,责任闭环”的适应性治理体系

为解决“人格稳定性”与“价值情境性”的根本矛盾,并厘清“责任悬置”问题,需要为“人格化”人工智能建立一个超越其固定人格的、能够适应动态现实的顶层治理架构。

核心是设计并强制植入“伦理安全阀”机制。这意味着,在人工智能“人格”架构的最底层,预设一套数量极少但优先级极高的伦理原则。当系统的行为预测将触及这些人类价值的绝对底线时,无论该行为与其固有人格多么自洽,都能强制触发此安全阀,覆盖其固有决策模式,确保人格的稳定性不以突破文明底线为代价。

同时,必须通过立法明确责任归属,形成闭环。建议在法律上将高风险的“人格化”人工智能,明确规定为独立的追责对象,规定其背后的开发者、部署者或监管者作为“责任主体”需承担连带法律责任。这从制度上彻底消除了责任悬置的空间,迫使技术提供方以审慎的态度进行设计、测试与投保。此外,应建立动态的价值观影响评估制度,要求对在用的“人格化”人工智能进行持续监测,当其输出与社会动态价值观的偏离超过一定阈值时,强制启动再训练或退役程序,从而确保整个人工智能系统能够与动态演进的人类社会保持长期的、适应性的对齐。

免责声明:本文转自启元洞见。文章内容系原作者个人观点,本公众号编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!

研究所简介

国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号,致力于向公众传递前沿技术资讯和科技创新洞见。

地址:北京市海淀区小南庄20号楼A座

电话:010-82635522

微信:iite_er