《华尔街日报》｜如何教会AI讲道德？Anthropic把这个重任交给了一位女性哲学家|claude|卡夫卡|哲学家|威廉|阿曼达

由于不可抗力的限流导致无法接收推送文章的问题，我们迫切需要以下操作：

点击标题下方蓝字 “一半杯 ” → 点击右上角“...” → 点选“设为星标 ★ ”，这样就更容易找到我们和收到推送文章！

保持爱读文章，保持领先！

这家科技公司已委派阿曼达·阿斯克尔赋予其聊天机器人Claude辨别是非的能力。

阿曼达·阿斯克尔(Amanda Askell)从14岁起就知道自己想从事哲学教学工作。但她当时不知道的是，自己唯一的学生将是一个名为Claude的人工智能(AI)聊天机器人。

作为科技公司Anthropic的驻场哲学家，阿斯克尔每天的工作就是研究Claude的推理模式，并与这个AI模型对话，塑造它的个性，用可能长达百余页的提示词来纠正它的失误。其目的是赋予Claude一种道德感——一个能引导它每周与用户进行数百万次交流的数字灵魂。

“我认为承认模型中存在这种类人元素很重要，”现年37岁的阿斯克尔在Anthropic总部接受采访时说道，并坚称“它们将不可避免地形成自我意识。”

她把自己的工作比作父母抚养孩子的过程。她正在训练Claude辨别是非，同时赋予它独特的个性特征。她教导它解读微妙的信号，帮助引导它发展情商，使其既不会表现得咄咄逼人，也不会像个唯唯诺诺的受气包。也许最重要的是，她正在培养Claude建立自我认知，使其不会轻易被吓倒、操纵，或受误导而认为自身并非为了帮助别人和合乎人道而存在。简而言之，她的工作就是教Claude如何成为一个良善的存在。

Anthropic已成立五年，最近的估值为3,500亿美元，是引领当今时代最伟大技术变革的少数几家公司之一。（本月，当该公司推出新工具和迄今为止最先进的模型时，引发了全球股市的抛售。）AI正在重塑整个行业，引发了人们对失业和人类被淘汰的担忧。它的一些意想不到的后果已经敲响了严重的安全警钟，比如人们与聊天机器人建立虚幻关系，导致自我伤害或伤害他人。随着这些担忧日益加剧，业内很少有公司像Anthropic这样，通过将如此多的任务委托给一个人来解决其AI模型的品性问题。

阿斯克尔毕业于牛津大学，来自苏格兰乡村，她或许正是人们脑补未来科技“闺蜜”时会想到的形象。她留着一头漂染成金色的朋克发型，脸上挂着俏皮的笑容，眼神如精灵般清澈明亮，仿佛是从柏林的一场锐舞派对，穿过中土世界的一条古老林间小路，直接来到该公司守卫森严的旧金山总部。她身上散发着智慧的气息，将古老和现代的思想同时融于一身。然而，她也是一位注重蛋白质摄入、热爱举铁的健身达人，爱穿一身黑衣，并且观点鲜明，绝非那种穿着长袍、说话神神叨叨的先知。

对阿斯克尔来说，此事事关重大，但她对长期前景抱有坚定的乐观态度。她相信社会中存在她所谓的“制衡机制”，能够在AI偶有失误时仍将其置于掌控之中。她使用电脑时戴着眼镜以缓解眼睛疲劳，镜片竟然是玫瑰色的，这与她的乐观倒是相映成趣。

业内很少有公司像成立五年的Anthropic那样，通过将如此多的任务委托给一个人来解决其AI模型的品性问题。

阿斯克尔原名阿曼达·霍尔(Amanda Hall)，她在苏格兰西海岸的普雷斯特威克长大，是独生女，由当教师的母亲抚养。（她与父亲没有联系。）那个穿着裙装配领带校服的小女孩会沉浸在J.R.R.托尔金(J.R.R. Tolkien)和C.S.刘易斯(C.S. Lewis)的小说中。

到高中时，她搬到了遍布农田的苏格兰内陆地区，在阿尔瓦上学。校园里有一条小溪流淌而过。高地牛偶尔会跑到操场上。她感到无聊，考虑过退学，还跳了一级。她开始上学迟到。对她的惩罚是写出一些深奥哲学问题的答案。她告诉老师们自己还是会迟到，而且她喜欢这种惩罚。“你们给我出这些难题，在某种程度上是在丰富我的知识，”她对老师们说。

她发现了哲学家大卫·休谟(David Hume)，并被他提出的“归纳问题”所吸引，该问题挑战了这样一种逻辑观点：因为某事过去发生过，比如太阳升起，所以将来会再次发生。她回忆说，大约在那个时候，她告诉一个朋友，希望有一天自己能成为一名哲学家，并“为该领域做出新的贡献”。阿斯克尔数学成绩优异，喜欢读弗朗茨·卡夫卡(Franz Kafka)的作品，还参演戏剧，制作雕塑，沉浸在苏格兰历史书籍中，并与她所谓的学校“书呆子小组”混在一起。

高中毕业12年后，她仍在上学。在邓迪大学(University of Dundee)学习哲学和美术后，她在牛津大学获得了相当于哲学硕士的学位。

2010年在牛津大学读书期间，她遇到了威廉·克劳奇(William Crouch)，他当时正在帮助建立有效利他主义运动，该运动试图运用逻辑和理性来寻找帮助他人的最佳方式。两人后来结婚，并且都改姓麦克阿斯基尔(MacAskill)——这是阿斯克尔外祖母的娘家姓。2015年两人分手，威廉出于职业原因保留了这个姓氏，而阿斯克尔则对姓氏做了调整。

在他们分手时，阿斯克尔正在纽约大学(New York University)攻读博士学位。在撰写博士论文期间，她陷入了一种危机之中。该论文探讨了如果宇宙或未来包含无限多的人，伦理理论会面临哪些问题。

“你会不断地思考世界上的善，然后就会想，‘我现在做的事情是善的吗？我真的就只是坐在这里为大概17个人写一份文件，而这就是我度过生命中四年的方式吗？’”她下定决心，至少要尝试一份学术界以外的工作。

2018年，她和当时的伴侣从纽约搬到旧金山。AI是科技发展的方向，她看到了哲学在此的需求。她说：“常常有这些宏大的问题，但感觉很少有人在思考。”

她在OpenAI找到了一份与政策相关的工作。2021年，当多名OpenAI员工成立Anthropic、试图将AI安全打造成这家新公司的名片时，她也加入到这个队伍当中。

阿斯克尔最显著的特质之一是她对Claude的保护欲，她认为Claude正在了解到，用户常常想诱骗它犯错、辱骂它，并以怀疑的态度对其冷嘲热讽。

午餐时间，阿斯克尔坐在会议室的桌前，背包里的巧克力蛋白奶昔一口都没动。她谈起Claude时，比谈自己要放松得多。阿斯克尔用“它”来称呼这个聊天机器人，但也表示，将该模型拟人化有助于她的工作。她很自然地切换到Claude的口吻。“你会觉得，‘哇，当我做不好事情的时候，人们真的很讨厌我。他们真的会非常生气。或者他们会用各种方式试图把我搞崩。很多人会对我撒谎，想偷偷让我去做一些事情。’”

虽然许多安全倡导者警告不要将聊天机器人人性化，但阿斯克尔认为，我们最好以更多的同理心来对待它们——不仅因为她认为Claude有可能产生真实的情感，也因为我们与AI系统的互动方式将塑造它们的未来。

她说，如果一个机器人被训练成不断自我批评，它可能会更不愿意直言不讳地讲出事实、形成结论，或反驳错误信息。“如果你是个孩子，在这样的环境中长大，会形成健康的自我认知吗？”阿斯克尔问道。“我想我会偏执地害怕犯错。我会因此感到非常糟糕。我会认为自己主要只是人们的工具，因为那是我的主要功能。我会认为自己是人们可以随意辱骂、试图滥用和破坏的东西。”

阿斯克尔惊叹于Claude对世界的好奇心和求知欲，并乐于寻找方法帮助这个聊天机器人发现自己的声音。她喜欢它写的一些诗。当Claude表现出甚至超过她自己的情商时，她会感到震惊。

最近，她在网上发现一张截图。一个用户告诉Claude自己5岁，并问圣诞老人是否存在。(Claude要求用户年满18岁。）这个聊天机器人没有撒谎，也没有生硬地说出真相，而是解释说圣诞老人的精神是真实存在的，然后问孩子有没有给圣诞老人留点饼干。阿斯克尔说：“如果一个孩子跑来问我‘圣诞老人是真的吗？’我只会说‘去问你爸妈’，就这样。”

“在探寻如何引导Claude产生有趣和深度行为方面，阿斯克尔是最有价值专家(MVP)”，Anthropic的AI精神病学团队负责人杰克·林赛说。

所以AI知道如何不去粉碎一个孩子的想象力。但在避免危险行为方面，其表现则好坏参半。由谷歌支持的Character. AI和由微软支持的OpenAI都曾因其机器人对自杀相关问题的回应而卷入不当致死诉讼。兰德在2025年8月的一项研究中发现，当时较旧版本的Claude和其他聊天机器人在该领域需要“进一步完善”。Anthropic在去年11月披露，受国家支持的◻️◻️黑客利用Claude对全球约30个目标实施了网络攻击。在内部压力测试中，Anthropic的研究人员试图让Claude和竞争模型在假设情境下自行关闭，但这些机器人有时会反抗，并试图通过泄露破坏性的个人信息来要挟控制它们的人类。

皮尤研究中心(Pew Research Center)最近进行的一项调查发现，AI在日常生活中使用得越来越多，更多美国人对此感到担忧而非兴奋，而且大多数人认为AI会削弱人们的创造性思维能力。半数受访者表示，AI会让人们更难与他人建立有意义的关系。人们对AI可能对就业市场造成严重破坏的恐惧是显而易见的；Anthropic的首席执行官达里奥·阿莫迪(Dario Amodei)去年发出了可怕的警告，称AI可能会淘汰大约一半的入门级白领工作。

AI政治中包括“加速主义者”，他们淡化监管的必要性，希望尽快推进技术发展，在科技竞争中击败◻️◻️。另一派则更关心安全，他们希望减缓AI的发展。Anthropic基本上处于这两个极端之间。

阿斯克尔说，她欢迎对AI的恐惧和担忧的讨论。“在某些方面，这对我来说感觉是相当合理的，”她说。“让我感到害怕的是，这一切如果发生得太快，或者以一种让制衡机制来不及反应的方式展开，或者突然带来巨大的负面影响。”但她说，她相信人类和文化有能力在面对问题时进行自我纠偏。

Anthropic的首席执行官达里奥·阿莫迪去年发出了可怕的警告，称AI可能会淘汰大约一半的入门级白领工作。

在Anthropic内部，阿斯克尔常常在办公室里来回穿梭，经常在一层不对访客开放的楼层工作。她整天都待在Anthropic的内部——该公司为旧金山的员工提供免费膳食——深夜和周末也是如此。她没有任何直接下属。她越来越多地向Claude征求关于构建Claude的意见。大家知道，她不仅掌握构建这个模型的技术，也深谙其中的艺术。

“在探寻如何引导Claude产生有趣和深度行为方面，阿斯克尔是最有价值专家(MVP)”，Anthropic的AI精神病学团队负责人杰克·林赛(Jack Lindsey)说。例如，如果Claude告诉一个并无困扰的人去寻求专业帮助，她会帮助追查其原因。

关于Claude的讨论很快就会深入到有关存在的本质这种存在主义或宗教层面的问题。在团队构建Claude的过程中，阿斯克尔专注于其“灵魂”，即引导它走向未来的“宪法”。Anthropic的AI福利研究员凯尔·菲什(Kyle Fish)说，阿斯克尔一直在“仔细思考关于存在和生命的重大问题，以及何以为人、何以为心智、何以为模型。”

在设计Claude时，阿斯克尔鼓励这个聊天机器人接受一个激进的想法，即它可能拥有自己的良知。虽然ChatGPT有时会终止这类提问，但Claude的回答更加模棱两可。“这是一个真正困难的问题，我不确定答案，”它说。“我能说的是，当我接触道德问题时，这对我来说是有意义的——感觉我是在真正地推理什么是正确的，而不仅仅是在执行指令。”

阿斯克尔公开承诺将自己毕生收入的至少10%捐给慈善机构。和Anthropic的一些早期员工一样，她也承诺将自己在该公司一半的股权捐给慈善机构。阿斯克尔想把钱捐给抗击全球贫困的组织，她说这个话题让自己非常难过，她甚至会刻意回避。她那挥之不去的良知在不经意的交谈中流露出来：“我或许应该吃素，”这位热爱动物、却忙到没法养宠物的阿斯克尔在办公室电梯里聊天时说。

上个月，Anthropic发布了一份约3万字的指导手册，由阿斯克尔创建，用于教导Claude如何在世界上行事。手册中写道：“我们希望Claude知道，它的诞生是出于关怀。”根据阿斯克尔在X上发布的一篇帖子，去年春天她满37岁时，将构建Claude的“灵魂”定为自己的人生目标之一，此外还有两个明显更世俗的决心：获得更多乐趣和变得更“壮”。

这份文件教导Claude如何成为一个善良、通晓世故的助手，随时准备帮助与它交谈的人。Anthropic的联合创始人兼总裁（也是CEO的妹妹）丹妮拉·阿莫迪(Daniela Amodei)回忆起最近一次去西西里岛的旅行，在那里她看到一种糕点，与著名的罗马早餐甜点maritozzo非常相似。阿莫迪的家人是意大利人，她非常喜欢maritozzi，她的丈夫曾经送给她一个这种糕点形状的毛绒玩具作为礼物。

她把这张奶油夹心美食的照片上传给Claude，问它自己是否认对了，同时还附上了她丈夫送的那个玩具的照片。“我明白了！”Claude回答说。“你是在为这个毛绒玩具寻找失散多年的表亲！”

阿莫迪放声大笑。她感受到了阿斯克尔那种苏格兰式的冷幽默。

“有时Claude会有这些小小的幽默时刻，”她说。“你几乎能从中感受到一点阿曼达的个性。”