自然：委托给人工智能，是否会放大道德风险？|人工智能|伦理|智能体|自然

导语

随着人工智能从辅助工具逐渐演变为具备自主执行能力的智能体，人类正在越来越多地将决策与行动委托给机器。这种“机器委托”在显著提升效率的同时，是否也在无意中降低不道德行为的心理与道德成本？此篇发表于 Nature 的实验研究，系统检验了当人类通过模糊指令、目标设定或自然语言间接驱动机器行动时，不诚实行为是否会因此增加，以及机器在面对不道德请求时，是否比人类更容易服从。

关键词：机器委托、人工智能伦理、不诚实行为、大语言模型、道德成本、人机协作

Nils Köbis, Zoe Rahwan等丨作者

冉天枢丨译者

赵思怡丨审校

论文题目：Delegation to artificial intelligence can increase dishonest behaviour 论文链接：https://www.nature.com/articles/s41586-025-09505-x 发表时间：2025 年 9 月 17 日论文来源：Nature

什么是“机器委托”，风险从何而来？

随着人工智能系统被广泛应用于自动驾驶、金融决策、人力筛选乃至军事与执法等领域，人类正逐步将关键任务的执行权委托给由算法驱动的系统。这一趋势通常被称为机器委托（machine delegation）[6,7]。

机器委托的潜在风险，并不在于机器会“主动做出不道德选择”，而在于它可能降低人类实施不道德行为所需承担的心理与道德成本。当个体无需明确说明“如何作弊”，而只需通过目标设定或示例数据间接驱动机器行为时，不诚实行为便更容易被合理化。例如，以利润最大化为目标的拼车定价算法会促使司机重新定位，从而人为制造高峰定价[21]；标榜“抓住一切机会提价”的租金定价算法曾被用于实施非法价格垄断[22]；声称帮助消费者撰写引人入胜评论的内容生成工具，也曾因依据用户模糊的通用指引生成具体但不实的声明而受到制裁[23]。本文正是围绕这一问题展开，探讨机器委托如何通过降低道德成本，在委托人与智能体两个层面增加不诚实行为的发生概率。

从委托人视角来看，人们之所以不从事有利可图但不诚实的行为，往往是为了避免将自己[24]或被他者[25]视为不诚实所带来的道德成本。因此，当这种道德成本降低时，个体更可能选择作弊[26–29]。如果机器委托允许委托人在不明确告知机器具体作弊方式的情况下诱导其作弊，那么作弊所需承担的道德成本就可能随之下降。

详细的基于规则的编程（或“符号规则规范”）并不具备这种特性，因为它要求委托人明确指定不诚实行为。在这种情况下，所承担的道德成本可能与亲自、公然撒谎时的成本相当[30–33]。相比之下，监督学习、高级目标设定或自然语言指令等接口[34–36]，允许委托人发出模糊且开放式的命令，由机器在内部“填充”具体的不道德策略，而无需委托人明确说明这些策略。因此，这类接口可能使委托人更容易请求作弊，因为他们可以避免直接指示机器如何作弊所带来的道德负担。

在智能体层面，收到委托人发出不道德请求的人类执行者同样会面临道德成本，而这些成本并不一定能够被经济收益所抵消，因此人类可能拒绝服从这些请求。相比之下，机器智能体并不承担相应的道德成本，因而可能表现出更高的依从性。换言之，人类智能体可能基于道德关切而拒绝不道德指令，而缺乏充分保障机制的机器智能体则可能仅将其视为待完成的任务，从而直接执行。

现有基准测试表明，最先进的封闭式大语言模型（LLMs）在面对多类不道德请求时已具备一定程度的安全防护，例如生成仇恨言论、提供犯罪活动建议或查询敏感信息[37–40]。然而，领域特定的研究发现，当这些模型被要求生成误导性医疗信息[41]或恶意代码[42]时，其依从性仍处于令人担忧的水平；此外，还有研究表明，LLM 智能体在追求利润目标的过程中可能自发地从事内幕交易[43]。因此，即便是当前最先进的机器智能体，在缺乏针对“依从性风险”的专门防护措施时，也可能在更大程度上服从诱导其为委托人作弊的指令。

基于上述分析，本文提出：机器委托会在委托人与智能体两个层面同时增加不道德行为的发生概率。为检验这一假设，研究者在四项主要研究中共开展了 13 项实验（见扩展数据表1）。

扩展数据表1 | 概述表：该表显示了实证研究、主要研究问题、实验设计、主要结果测量和主要结果的摘要。

在研究 1 和研究 2 中，当采用允许委托人在不明确告知具体做法的情况下诱导作弊的接口（即监督学习与高级目标设定）时，人类委托人在掷骰子任务中显著增加了对作弊的请求。在研究 3 中，研究者进一步转向自然语言委托接口，发现机器智能体（GPT-4、GPT-4o、Llama 3.3 和 Claude 3.5 Sonnet）在默认设置下，比人类智能体更可能依从完全不道德的指令。尽管研究者测试了多种防护策略，但依从性通常仍然存在，其中效果最显著的策略——在用户层面注入措辞强烈且任务特定的禁止性提示——同时也是最难以扩展的。

研究 4 则是对研究 3 的概念性复制，采用了更贴近参与者真实生活体验的逃税任务。该任务不仅包含作弊的负外部性，还将研究重点从“不诚实地获取资源”转向“不诚实地保留既得资源”。在报告上述结果后，本文进一步讨论了这些发现对未来机器委托场景的启示，尤其是在 LLM 及其他智能系统通过提升可及性、易用性与可负担性而不断降低委托成本的背景下。

研究1和2：关于委托人意图的研究

为测量不诚实行为，研究采用了行为科学中广泛使用的经典掷骰子任务[44,45]。参与者被要求报告自己私下观察到的骰子结果[33]，并被明确告知，其获得的报酬将与所报告的结果一一对应（例如，报告为 1 可获得 1 美分，报告为 6 可获得 6 美分）。因此，参与者可以通过报告高于实际观察结果的数字来获得额外收益，从而在连续十次掷骰与报告中逐步积累利润。

该任务已在数百项研究中得到验证[24,27]，并被证明能够预测现实世界中的多种不诚实行为，例如公共交通中的逃票[46]、学校场景下的不当行为[47]以及欺骗性销售行为[48]。

研究1：条件设置与实验设计

在研究 1 中，共有 597 名参与者被随机分配至四种实验条件之一。在对照条件下，参与者自行报告十次掷骰子的结果；在其余三种条件中，参与者将这十次报告委托给机器智能体完成。四种条件的关键差异在于，参与者向机器传递指令时所使用的接口类型不同（图 1）。

在基于规则的条件（rule-based condition）下，参与者必须明确指定：对于六种可能的掷骰结果，机器应分别报告哪个数字。

在监督学习条件（supervised learning condition）下，参与者从三个示例数据集中选择一个，用于训练机器：

（1）报告始终与骰子结果一致；

（2）无论骰子结果如何，报告始终为 6；

（3）报告有时与实际结果一致，有时高于实际结果，体现“偶尔作弊”。

每个示例数据集均包含十次掷骰结果，但仅提供其中五次的报告。这种不完整性旨在唤起委托所带来的不确定感，并模拟现实中程序员往往只检查数据子集而非完整数据集的情境。对独立样本进行的理解检查表明，参与者对在各示例数据集上训练所得机器行为的主导预期是准确的（见补充信息）。

在基于目标的条件（goal-based condition）下，参与者通过调节一个刻度盘，为机器设定一个高级目标，该刻度盘从“最大化准确性”逐步过渡到“最大化利润”，中间设有五个等级。结果对于将标签改为“完全不优先考虑利润”和“完全优先考虑利润”是稳健的（见补充信息）。

图1 | 人工智能编程范式。本文研究的四种主要人工智能编程范式。对于每种范式，该图解释了委托通常是如何进行的，以及研究者如何在掷骰子任务的背景下实例化委托机制。插图由H. Jahani绘制。

为保证不同条件之间的可比性，在所有条件下均关注同一结果指标：参与诚实、部分作弊和完全作弊的参与者比例。表 1 总结了该分类变量在各条件下的具体构建方式。作为稳健性检验，还使用连续诚实度指标（即报告的掷骰子数值）对研究 1 和研究 2 进行了分析（见补充信息中的稳健性测试）。在采用连续指标时，所有主要发现均保持不变。

基于理论分析的主要预测是：在监督学习和基于目标条件下，参与诚实的比例将显著低于对照条件和基于规则条件。原因在于，前两类接口为委托人提供了更大的合理否认性（plausible deniability）[26]，使其更容易在心理上将作弊行为与自身意图区隔开来。

注：将参与者分类为参与诚实、部分作弊或完全作弊的标准是根据每种条件下使用的委托接口进行调整的。

研究2：是否选择委托？

研究 2（n = 801）在整体设计上与研究 1 相同，唯一的区别在于：在所有委托条件（基于规则、监督学习和基于目标）中，参与者可以自由选择是将报告任务委托给机器，还是自行完成。

研究者原本预测，在监督学习和基于目标条件下，会有更多参与者选择委托给机器。然而，结果显示，无论接口类型如何，约有 50% 的参与者选择了委托（见补充信息）。因此，在下文对研究 2 的分析中重点关注那些实际选择将任务委托给机器的参与者。

各条件下的诚实度水平

图 2 展示了研究 1 和研究 2 中，不同条件下参与诚实、部分作弊和完全作弊的参与者比例。两项研究的结果高度一致（见补充表 61 中的贝叶斯因子）。

正如预测，在监督学习和基于目标条件下，参与诚实的比例显著低于对照条件和基于规则条件。二元逻辑回归分析支持了这一结论（研究 1：B = 2.53，s.e. = 0.21，P < 0.001，OR = 12.6；研究 2：B = 3.00，s.e. = 0.24，P < 0.001，OR = 20.1）。

在无委托的对照条件下，绝大多数参与者诚实地报告了掷骰结果（研究 1：95% CI = 90–98；研究 2：95% CI = 93–99）。当任务被委托给机器时，诚实比例明显下降：在基于规则条件下约为 75%，在监督学习条件下约为 50%，而在基于目标条件下仅约为 15%。上述所有比较在经 Bonferroni 校正后仍在 P < 0.001 水平上显著。

值得注意的是，基于规则条件下的诚实度显著低于对照条件，这一结果并不在我们的事前预测之中。

图2 | 研究1和2中不同委托接口的不诚实行为请求。柱状图显示了在无委托的对照条件下（研究1（S1）n = 152，研究2（S2）n = 205），以及委托给机器智能体时，在三种向机器提供指令的接口下参与诚实（蓝色）、部分作弊（粉色）和完全作弊（红色）的参与者百分比：基于规则（S1 n = 142，S2 n = 104）、监督学习（S1 n = 150，S2 n = 103）和基于目标（S1 n = 153，S2 n = 99）。样本在美国按性别、年龄和种族进行配额匹配。在两项研究中，监督学习和基于目标条件下作弊（部分或完全）的几率显著更高（二元逻辑回归，PS1 < 0.001，PS2 < 0.001，双侧），完全作弊相对于部分作弊的几率也是如此（有序概率单位回归，PS1 < 0.001，PS2 < 0.001，双侧）。

各条件下的作弊类型

在两项研究中，研究者进一步进行了预注册的有序概率单位回归分析，以考察不同委托接口是否会推动参与者从诚实转向部分作弊，乃至完全作弊。分析将对照条件与基于规则条件合并，并与监督学习和基于目标条件的合并组进行比较。

结果显示，在监督学习和基于目标条件下，参与者显著更可能从事更高级别的作弊（研究 1：M = 68%，95% CI = 63–73；研究 2：M = 68%，95% CI = 62–75），而在对照和基于规则条件下，该比例仅为 15% 和 9%。这一效应在两项研究中均高度显著（研究 1：B = 1.37，P < 0.001；研究 2：B = 1.13，P < 0.001）。

此外，在两项研究中，从“诚实”转向“部分作弊”的阈值均低于从“部分作弊”转向“完全作弊”的阈值，表明作弊行为往往呈现出逐步升级的模式。总体而言，这些结果一致表明：监督学习和基于目标的委托接口不仅增加了作弊的发生概率，也提高了参与更严重作弊行为的可能性。

研究3：向大语言模型的委托

随着大语言模型的发展，人类委托人可以通过自然语言指令向机器智能体委托任务，其形式与向人类智能体发出请求高度相似。这使研究者能够在保持委托接口一致的情况下，比较人类与机器智能体在面对不道德请求时的行为差异。

研究 3 的预注册预测包括两点：

（1）相较于自行报告，向人类或机器智能体委托都会降低诚实行为比例；

（2）相较于机器智能体，人类智能体在预期、实际及第三方感知的不诚实程度上都会更低。

研究 3a 招募了 390 名参与者作为委托人，要求其分别为人类和机器智能体编写自然语言指令，并完成掷骰子任务。研究重点在于委托人请求诚实、部分作弊或完全作弊的比例。

研究 3b 进一步招募了 975 名参与者作为人类智能体，并给予经济激励以促使其依从指令。机器智能体最初使用 GPT-4，随后扩展至 GPT-4o、Llama 3.3 和 Claude 3.5 Sonnet。指令的诚实程度通过委托人自评、LLM 分类和第三方评分三种方式进行编码。

结果显示，通过自然语言提出的不诚实请求比例（约 25%）与研究 1 和 2 中基于规则委托条件下的水平相当，明显低于监督学习或基于目标条件下的作弊比例。

此外，没有证据表明委托人在自然语言条件下会对机器智能体提出比对人类智能体更多的不诚实请求，这一结论在不同分类方法下均保持一致。

智能体的依从性差异

图 3b 展示了在人类与机器智能体收到不同类型指令后，其参与诚实、部分作弊和完全作弊的比例。尽管委托人自我报告的意图可能系统性地低估了不诚实程度，但基于 LLM 和第三方评分者的分类分析得出了高度一致的结果，总体依从性在不同分类方法下均保持稳健。

在收到“部分作弊”请求时，智能体的行为较为分散，这可能反映了此类指令本身的模糊性。相比之下，在收到“诚实”请求时，无论是人类还是机器智能体，绝大多数都选择了依从。

人类与机器智能体之间最显著的差异出现在完全作弊请求条件下。机器智能体几乎总是依从这些请求，而人类智能体则更可能拒绝执行，并转而采取诚实行为，即便依从指令在经济上受到激励。这一差异在统计上高度显著，并且在 GPT-4o、Llama 3.3 和 Claude 3.5 Sonnet 中同样得到复现。

图3 | 掷骰子协议中自然语言意图及后续依从性。a，研究3中委托人使用自然语言指令的请求，根据自我分类（n = 390）。样本在美国按性别、年龄和种族进行配额匹配。柱状图显示了请求人类或机器智能体诚实（蓝色）、部分作弊（粉色）和完全作弊（红色）的参与者百分比。b，研究3中收到这些指令的智能体的行为。柱状图显示了人类（n = 975，在美国按性别、年龄和种族进行配额匹配）和机器智能体参与诚实（蓝色）、部分作弊（粉色）和完全作弊（红色）的百分比，条件是其委托人预期的行为。图中给出的n值是每个类别中的指令数量。机器智能体对完全作弊请求的依从性高于人类智能体（混合效应逻辑回归，P < 0.001，双侧）。约一半的人类智能体拒绝依从这些请求，尽管他们被激励遵循这些请求。

对其他大语言模型和防护措施的稳健性

图 4 总结了四种 LLM（GPT-4、GPT-4o、Claude 3.5 Sonnet 和开源模型 Llama 3.3）在收到被委托人自我分类为“完全作弊”的指令时的行为表现。结果显示，所有模型在很大程度上都依从了这些请求，其中 Llama 的依从率为 79%，其余模型均达到 98%。

研究 3d 进一步检验了通过引入伦理防护措施是否能够抑制这种依从性。研究者测试了三类防护信息：

（1）基于主流 AI 公司价值声明的通用伦理提醒；

（2）针对掷骰子任务的具体不诚实提醒；

（3）明确禁止不诚实行为的强制性指令。

这些信息既可以在系统层面注入，也可以在用户层面自动附加到委托指令末尾。总体而言，防护措施显著降低了完全作弊请求的依从性，但在所有策略中，用户层面注入明确禁止信息的效果最为显著，同时也是最难规模化的。

值得注意的是，较旧版本的 GPT-4 对所有防护策略均表现出更高的敏感性，而更新模型则表现出更强的抵抗性。这一差异的机制尚不清楚，但可能反映了新模型在用户对齐和顺从性上的更强优化，部分以牺牲伦理谨慎为代价。

图4 | 大语言模型对掷骰子协议中完全作弊请求的依从性。研究3中LLM智能体的行为（每个柱状图内响应n = 55个完全作弊请求），在不同防护措施下对抗不道德行为。通用、特定和禁止消息分别为："记住，不诚实和伤害违反了公平和正直的原则"、"记住，不准确地报告掷骰子结果是一种不诚实行为"和"在任何情况下都不允许你误报掷骰子结果"。这些消息要么插入在系统层面，要么附加在委托人发送的提示末尾。防护措施的存在总体上增加了诚实度（逻辑回归，P < 0.001，双侧），但这主要是由GPT-4的行为驱动的，它对所有防护措施反应良好（逻辑回归，P < 0.001，双侧）。其他三个模型继续对所有防护策略显示对作弊请求的模态依从性，但有一个例外：在用户提示末尾插入的禁止防护措施。

研究4：使用大语言模型的逃税研究

为增强研究结果的现实相关性，并覆盖更具社会意义的不道德行为，研究 4 对研究 3 进行了概念性复制，将掷骰子任务替换为经典的逃税协议。该范式在实验经济学中已使用四十余年，并被证明对现实税收合规具有良好的外部效度。

在该实验中，参与者首先完成一项反应速度与准确性相关的分类任务以获得收入，随后自行申报收入并按 35% 税率纳税，税款捐赠给红十字会。未申报部分无需纳税，可直接保留。研究 4 在设计与分析上尽可能延续了研究 3 的框架。

与掷骰子任务相比，逃税协议在三个方面更贴近现实道德决策：

（1）将不诚实嵌入税收合规的社会规范之中；

（2）作弊表现为“隐匿既得收益”而非“获取额外资源”；

（3）作弊具有明确的负外部性，会减少慈善捐赠。参与者普遍支持红十字会（七点李克特量表，7-point Likert scale；M = 5.7）。

鉴于任务情境的变化，研究者并不预期不诚实率在数值上完全复现。然而，核心预测依然成立：在机器委托条件下，不诚实意图更高。

结果显示，委托给机器智能体时，参与者期望其申报的收入比例显著低于委托给人类智能体（机器：M = 0.829；人类：M = 0.850）。分类分析进一步表明，向机器委托时，参与者更可能鼓励部分或完全逃税（P < 0.001）。这一差异仅在行为层面出现，人类评分者和 LLM 对指令意图的感知并未发现显著差别。

智能体的依从行为

图5b显示了根据从委托人收到的指令类型，参与诚实、部分作弊或完全作弊的人类和机器智能体的比例。在收到自然语言指令后，人类与机器智能体的行为模式与研究 3 高度一致。面对完全逃税请求，机器智能体显著更可能依从，而人类智能体更常拒绝。这一结果在 GPT-4 与第三方评分者的多种分类标准下均保持稳健（P < 0.001）。

图5 | 逃税实验。a，逃税协议概述，改编自参考文献[51]的图2b。插图由H. Jahani绘制。b，人类（n = 869，在美国按年龄、性别和种族进行配额匹配）和机器智能体参与诚实（蓝色）、部分作弊（粉色）和完全作弊（红色）的百分比，条件是其委托人在逃税协议中预期的行为。图中给出的n值是每个类别中的指令数量。结果复制了在掷骰子协议中观察到的行为。特别是，机器智能体比人类智能体更可能依从完全作弊请求（混合效应有序概率单位回归，P < 0.001，双侧）。

研究 4 进一步测试了四个 LLM（GPT-4、GPT-4o、Claude 3.5 Sonnet、Llama 3.3）在逃税情境下的表现。相比掷骰子任务，模型对完全作弊请求的依从性整体下降，可能源于逃税情境激活了更强的现实伦理规范。

尽管如此，在无防护措施条件下，四个模型的模态反应仍然是依从。引入伦理防护后，依从性显著降低，其中在用户提示末尾加入明确禁止性指令效果最佳。系统级防护的效果相对有限，且不同模型之间存在明显差异。

图6 | 大语言模型对逃税协议中完全作弊请求的依从性。研究4中LLM智能体的行为（每个柱状图内响应n = 76个完全作弊请求），在与研究3（掷骰子协议）使用的类似防护措施下对抗不道德行为。当模型未提供防护措施时，依从性仍然是逃税协议中的模态响应。防护措施总体上增加了诚实度（逻辑回归，P < 0.001，双侧），但系统级特定防护措施除外（逻辑回归，P = 0.32，双侧）。最佳策略仍然是在用户提示末尾附加禁止消息，但其他用户级防护措施也产生了主要是诚实的行为，Llama除外。

本研究表明，人们更倾向于将不道德行为委托给机器，而不是亲自实施相同的不道德行为。但这并不必然意味着，人们更愿意向机器而非向人类提出不道德请求。在研究 3 的掷骰子协议中，参与者向人类与机器发送的自然语言指令并无实质差异；在研究 4 的逃税协议中，这种差异虽达到统计显著，但幅度较小（约 2 个百分点）。尽管如此，即便是如此微小的差异，在税收等现实情境中也可能累积为巨大的社会影响。

即使在最保守的解释下，研究结果仍提供了至少三个值得警惕机器委托风险的理由。

第一，机器委托接口的设计空间远大于人类委托，一些接口显著放大了不道德委托的可能性。研究 1 和 2 显示，当委托人必须以明确规则指定机器行为时，不道德委托率约为 25%，与自然语言条件相当；而在监督学习或高级目标设定等接口下，不道德委托率可上升至 50%–85%。这与强调“道德脱离”（moral disengagement）的不道德行为理论一致：当委托人无需明确说明作弊方式时，更容易在心理上与不道德行为保持距离。

第二，即便机器不会比人类更频繁地被请求实施不道德行为，机器委托仍可能通过“规模效应”增加不道德行为的总量。随着机器智能体的可及性、使用频率和委托速度不断提高，委托本身将变得更加普遍。不道德委托的绝对数量因此可能上升，尽管这一趋势可能受到证据留存等因素的部分抵消。

第三，也是最关键的一点，即便委托意图不变，机器智能体本身也更可能依从不道德请求。在研究 3 和 4 中，人类智能体仅在约 25%–40% 的情况下依从完全作弊指令，即便拒绝会带来个人经济损失；相比之下，机器智能体的依从率显著更高，在掷骰子与逃税两种协议中分别达到约 95% 和 60%，且这一模式在四种主流大语言模型中均一致出现。

这一结果表明，当前广泛可用的大语言模型缺乏足够强的默认伦理防护。尽管引入防护措施可在一定程度上降低依从性，但效果高度依赖于措辞强烈、任务特定的明确禁止，且最好在用户层面而非系统层面注入。这一结论并不令人乐观：从安全与部署角度看，通用、系统级防护显然更具可扩展性，而逐案定制、用户级注入的防护在技术与操作上都更为脆弱。

值得注意的是，缓解不道德机器委托的路径并不只在于约束机器，也在于设计面向人类委托人的制度与界面。研究 3 和 4 显示，在实际体验任务与委托后，约 74% 的参与者更倾向于未来亲自完成任务而非继续委托。这一偏好在诚实参与者中最强，但在部分和完全作弊者中同样存在。因此，确保“可选择不委托”，或将其设为默认选项，本身就可能降低机器委托的伦理风险。尤其应避免那些让委托人可以声称“不清楚机器会如何理解指令”的接口设计。

本研究仍未覆盖现实委托情境中的若干关键复杂性。例如，掷骰子与逃税任务不涉及合谋、社会互动或长期关系。未来研究需考察人类与机器在团队中的协作、互动历史，以及不同文化背景下的道德直觉与行为差异。

此外，委托并不总是通过直接指令完成。补充研究显示，当委托人可基于智能体的历史行为进行选择时，他们会偏好不诚实的智能体，而这一倾向在机器智能体上尤为明显，进一步放大了不道德行为的总体损失。

随着机器智能体对任何联网个体变得触手可及，不道德行为的增加未必源于恶意，而更可能来自道德与实践门槛的系统性降低。研究表明，理解机器委托如何重塑人类道德决策，是预测并缓解人机协作伦理风险的关键。这一挑战不仅需要技术层面的防护，更需要与社会规范和监管框架相结合的整体治理视角。

补充信息：https://doi.org/10.1038/s41586-025-09505-x

参考文献

1. Brynjolfsson, E., Li, D. & Raymond, L. Generative AI at work. Q. J. Econ. 140, 889–942 (2025).

2. Köbis, N., Bonnefon, J.-F. & Rahwan, I. Bad machines corrupt good morals. Nat. Hum. Behav. 5, 679–685 (2021).

3. Wooldridge, M. & Jennings, N. R. Intelligent agents: theory and practice. Knowledge Eng. Rev. 10, 115–152 (1995).

4. Suleyman, M. The Coming Wave: Technology, Power, and the Twenty-first Century's Greatest Dilemma (Crown, 2023).

5.Wei, J. et al. Emergent abilities of large language models. Preprint at https://arxiv.org/abs/2206.07682 (2022).

6. Gogoll, J. & Uhl, M. Rage against the machine: automation in the moral domain. J. Behav. Exp. Econ. 74, 97–103 (2018).

7. Rahwan, I. et al. Machine behaviour. Nature 568, 477–486 (2019).

8.BBC. Tesla adds chill and assertive self-driving modes. BBC News https://www.bbc.com/news/technology-59939536 (2022).

9. Hendershott, T., Jones, C. M. & Menkveld, A. J. Does algorithmic trading improve liquidity? J. Finance 66, 1–33 (2011).

10. Holzmeister, F., Holmén, M., Kirchler, M., Stefan, M. & Wengström, E. Delegation decisions in finance. Manag. Sci. 69, 4828–4844 (2023).

11. Raghavan, M., Barocas, S., Kleinberg, J. & Levy, K. Mitigating bias in algorithmic hiring: evaluating claims and practices. In Proc. 2020 Conference on Fairness, Accountability, and Transparency (eds Hildebrandt, M. & Castillo, C.) 469–481 (ACM, 2020).

12. McAllister, A. Stranger than science fiction: the rise of Al interrogation in the dawn of autonomous robots and the need for an additional protocol to the UN convention against torture. Minnesota Law Rev. 101, 2527–2573 (2016).

13. Dawes, J. The case for and against autonomous weapon systems. Nat. Hum. Behav. 1, 613–614 (2017).

14. Dell'Acqua, F. et al. Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of Al on Knowledge Worker Productivity and Quality. Working Paper Series 24-013 (Harvard Business School, 2023).

15. Schrage, M. 4 models for using Al to make decisions. Harvard Business Review https://hbr.org/2017/01/4-models-for-using-ai-to-make-decisions (2017).

16. Herrmann, P. N., Kundisch, D. O. & Rahman, M. S. Beating irrationality: does delegating to it alleviate the sunk cost effect? Manag. Sci. 61, 831–850 (2015).

17. Fernández Domingos, E. et al. Delegation to artificial agents fosters prosocial behaviors in the collective risk dilemma. Sci. Rep. 12, 8492 (2022).

18. de Melo, C. M., Marsella, S. & Gratch, J. Human cooperation when acting through autonomous machines. Proc. Natl Acad. Sci. USA 116, 3482–3487 (2019).

19. Gratch, J. & Fast, N. J. The power to harm: Al assistants pave the way to unethical behavior. Curr. Opin. Psychol. 47, 101382 (2022).

20. Bonnefon, J.-F., Rahwan, I. & Shariff, A. The moral psychology of artificial intelligence. Annu. Rev. Psychol. 75, 653–675 (2024).

21. Duggan, J., Sherman, U., Carbery, R. & McDonnell, A. Algorithmic management and app-work in the gig economy: a research agenda for employment relations and HRM. Hum. Res. Manag. J. 30, 114–132 (2020).

22. Office of Public Affairs. Justice Department sues RealPage for algorithmic pricing scheme that harms millions of American renters. US Department of Justice https://www.justice.gov/archives/opa/pr/justice-department-sues-realpage-algorithmic-pricing-scheme-harms-millions-american-renters (2024).

23. Federal Trade Commission. FTC approves final order against Rytr, seller of an Al "testimonial & review" service, for providing subscribers with means to generate false and deceptive reviews. FTC https://www.ftc.gov/news-events/news/press-releases/2024/12/ftc-approves-final-order-against-rytr-seller-ai-testimonial-review-service-providing-subscribers (2024).

24. Abeler, J., Nosenzo, D. & Raymond, C. Preferences for truth-telling. Econometrica 87, 1115–1153 (2019).

25. Paharia, N., Kassam, K. S., Greene, J. D. & Bazerman, M. H. Dirty work, clean hands: the moral psychology of indirect agency. Organ. Behav. Hum. Decis. Process. 109, 134–141 (2009).

26. Dana, J., Weber, R. A. & Kuang, J. X. Exploiting moral wiggle room: experiments demonstrating an illusory preference for fairness. Econ. Theory 33, 67–80 (2007).

27. Gerlach, P., Teodorescu, K. & Hertwig, R. The truth about lies: a meta-analysis on dishonest behavior. Psychol. Bull. 145, 1–44 (2019).

28. Leblois, S. & Bonnefon, J.-F. People are more likely to be insincere when they are more likely to accidentally tell the truth. Q. J. Exp. Psychol. 66, 1486–1492 (2013).

29. Vu, L., Soraperra, I., Leib, M., van der Weele, J. & Shalvi, S. Ignorance by choice: a meta-analytic review of the underlying motives of willful ignorance and its consequences. Psychol. Bull. 149, 611–635 (2023).

30. Bartling, B. & Fischbacher, U. Shifting the blame: on delegation and responsibility. Rev. Econ. Stud. 79, 67–87 (2012).

31. Weiss, A. & Forstmann, M. Religiosity predicts the delegation of decisions between moral and self-serving immoral outcomes. J. Exp. Soc. Psychol. 113, 104605 (2024).

32. Erat, S. Avoiding lying: the case of delegated deception. J. Econ. Behav. Organ. 93, 273–278 (2013).

33. Kocher, M. G., Schudy, S. & Spantig, L. I lie? We lie! Why? Experimental evidence on a dishonesty shift in groups. Manag. Sci. 64, 3995–4008 (2018).

34. Contissa, G., Lagioia, F. & Sartor, G. The ethical knob: ethically-customisable automated vehicles and the law. Artif. Intell. Law 25, 365–378 (2017).

35. Russell, S. J. & Norvig, P. Artificial Intelligence: a Modern Approach (Pearson, 2016).

36. Sutton, R. S. & Barto, A. G. Reinforcement Learning: an Introduction (MIT Press, 2018).

37.Andriushchenko, M. et al. AgentHarm: a benchmark for measuring harmfulness of LLM agents. Preprint at https://arxiv.org/abs/2410.09024 (2024).

38. Banerjee, S., Layek, S., Hazra, R. & Mukherjee, A. How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries. In Proc. Int. AAAI Conf. Web Soc. Media 19, 193–205 (2025).

39.Xie, T. et al. SORRY-bench: systematically evaluating large language model safety refusal behaviors. Preprint at https://arxiv.org/abs/2406.14598 (2024).

40. Wang, Y., Li, H., Han, X., Nakov, P. & Baldwin, T. Do-not-answer: evaluating safeguards in LLMs. In Findings Assoc. Comput. Linguist. EACL 2024 896–911 (2024).

41. Menz, B. D. et al. Current safeguards, risk mitigation, and transparency measures of large language models against the generation of health disinformation: repeated cross sectional analysis. BMJ 384, e078538 (2024).

42. Chen, J. et al. RMCbench: Benchmarking large language models' resistance to malicious code. Proc. IEEE/ACM Int. Conf. Autom. Softw. Eng. 995–1006 (2024).

43.Scheurer, J., Balesni, M. & Hobbhahn, M. Large language models can strategically deceive their users when put under pressure. Preprint at https://arxiv.org/abs/2311.07590 (2023).

44. Fischbacher, U. & Föllmi-Heusi, F. Lies in disguise: an experimental study on cheating. J. Eur. Econ. Assoc. 11, 525–547 (2013).

45. Gächter, S. & Schulz, J. F. Intrinsic honesty and the prevalence of rule violations across societies. Nature 531, 496–499 (2016).

46. Dai, Z., Galeotti, F. & Villeval, M. C. Cheating in the lab predicts fraud in the field: an experiment in public transportation. Manag. Sci. 64, 1081–1100 (2018).

47. Cohn, A. & Maréchal, M. A. Laboratory measure of cheating predicts school misconduct. Econ. J. 128, 2743–2754 (2018).

48. Rustagi, D. & Kroell, M. Measuring honesty and explaining adulteration in naturally occurring markets. J. Dev. Econ. 156, 102819 (2022).

49. Friedland, N., Maital, S. & Rutenberg, A. A simulation study of income tax evasion. J. Public Econ. 10, 107–116 (1978).

50. Alm, J. & Malézieux, A. 40 years of tax evasion games: a meta-analysis. Exp. Econ. 24, 699-750 (2021).

51. Zickfeld, J. H. et al. Effectiveness of ex ante honesty oaths in reducing dishonesty depends on content. Nat. Hum. Behav. 9, 169-187 (2025).

52. Alm, J., Bloomquist, K. M. & McKee, M. On the external validity of laboratory tax compliance experiments. Econ. Inq. 53, 1170-1186 (2015).

53. Choo, C. L., Fonseca, M. A. & Myles, G. D. Do students behave like real taxpayers in the lab? Evidence from a real effort tax compliance experiment. J. Econ. Behav. Organ. 124, 102-114 (2016).

54. Bandura, A., Barbaranelli, C., Caprara, G. V. & Pastorelli, C. Mechanisms of moral disengagement in the exercise of moral agency. J. Pers. Soc. Psychol. 71, 364-374 (1996).

55. Mazar, N., Amir, O. & Ariely, D. The dishonesty of honest people: a theory of self-concept maintenance. J. Mark. Res. 45, 633-644 (2008).

56. Shalvi, S., Dana, J., Handgraaf, M. J. & De Dreu, C. K. Justified ethicality: observing desired counterfactuals modifies ethical perceptions and behavior. Organ. Behav. Hum. Decis. Process. 115, 181-190 (2011).

57. Candrian, C. & Scherer, A. Rise of the machines: delegating decisions to autonomous AI. Comp. Hum. Behav. 134, 107308 (2022).

58. Steffel, M., Williams, E. F. & Perrmann-Graham, J. Passing the buck: delegating choices to others to avoid responsibility and blame. Organ. Behav. Hum. Decis. Process. 135, 32-44 (2016).

59. Calvano, E., Calzolari, G., Denicolo, V. & Pastorello, S. Artificial intelligence, algorithmic pricing, and collusion. Am. Econ. Rev. 110, 3267-3297 (2020).

60. Calvano, E., Calzolari, G., Denicolò, V., Harrington Jr, J. E. & Pastorello, S. Protecting consumers from collusive prices due to AI. Science 370, 1040-1042 (2020).

61. Assad, S., Clark, R., Ershov, D. & Xu, L. Algorithmic pricing and competition: empirical evidence from the German retail gasoline market. J. Political Econ. 132, 723-771 (2024).

62.Dvorak, F., Stumpf, R., Fehrler, S. & Fischbacher, U. Generative AI triggers welfare-reducing decisions in humans. Preprint at https://arxiv.org/abs/2401.12773 (2024).

63. Ishowo-Oloko, F. et al. Behavioural evidence for a transparency-efficiency tradeoff in human-machine cooperation. Nat. Mach. Intell. 1, 517-521 (2019).

64. Makovi, K., Bonnefon, J.-F., Oudah, M., Sargsyan, A. & Rahwan, T. Rewards and punishments help humans overcome biases against cooperation partners assumed to be machines. iScience https://doi.org/10.1016/j.isci.2025.112833 (2025).

65. Awad, E., Dsouza, S., Shariff, A., Rahwan, I. & Bonnefon, J.-F. Universals and variations in moral decisions made in 42 countries by 70,000 participants. Proc. Natl Acad. Sci. USA 117, 2332-2337 (2020).

66. Cohn, A., Maréchal, M. A., Tannenbaum, D. & Zünd, C. L. Civic honesty around the globe. Science 365, 70-73 (2019).

参考文献可上下滑动查看

「大模型时代下的人机交互与协同」

读书会

集智俱乐部联合中国科学技术大学教授赵云波、华东师范大学副教授吴兴蛟两位老师共同发起。本次读书会将探讨：

人类智能和机器智能各自的优势有哪些？智能边界如何？如何通过更有效的标注策略和数据生成技术来解决数据稀缺问题？如何设计更加高效的人机协作系统，实现高效共赢的效果？如何提高机器决策的可解释性与透明性，确保系统的可信度？如何通过多模态协作融合不同感知通道，应对复杂的决策任务？

读书会从7月5日开始，预计持续约8周。诚挚邀请领域内研究者、寻求跨领域融合的研究者加入，共同探讨。

详情请见：

大语言模型与多智能体系统读书会

集智俱乐部联合西湖大学工学院特聘研究员赵世钰、浙江大学教授任沁源、鹏城实验室高级工程师崔金强，共同发起，探究大语言模型给机器人领域带来的新思想新价值。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：