打开网易新闻 查看精彩图片

一个可深入了解真实世界AI使用情况并保护用户隐私的系统。

作者|苏霍伊

编辑|王博

你会用大模型做什么?

美国AI独角兽企业Anthropic近期从用户与Claude的对话中随机选取了100万条,进行分析和总结后发现,用户在Claude.ai上的主要使用场景排在第一位的是网页和移动应用开发,占比为10.4%。

Anthropic进一步解释,软件开发人员主要利用Claude执行调试代码、解释Git操作及概念等任务。

而在用户与Claude进行的最常见类型的对话中,排在2~5位的是:内容创作与沟通,9.2%;学术研究与写作,7.2%;教育与职业发展,7.1%;高级AI/ML应用,6.0%。

打开网易新闻 查看精彩图片

用户与Claude进行的最常见类型的对话,涵盖所有语言,图片来源:Anthropic

Anthropic的人类分析师还利用工具识别出了数千个较小的对话聚类,其中一些用途可能出人意料,包括:梦境解析、足球比赛分析、灾害应急准备、填字游戏提示、龙与地下城游戏以及统计“strawberry”一词中的字母“r”数量。

另外,不同语言的用户使用Claude的差异也很明显。其中,中文用户使用Claude撰写犯罪、惊悚和悬疑小说的频率是基础值的4.4倍;研究并开发应对人口老龄化及老年护理的解决方案的频率是基础值的1.9倍;要求Claude提供与太空探索主题相关的信息和帮助的频率是基础值的1.6倍。

需要注意的是,中国大陆地区并不在Anthropic推出的Claude系列AI大模型的服务范围内,因此中文的数据并不能代表全球华语地区的使用情况。

而西班牙语用户更多要求Claude解释和分析经济理论及其实际应用,日语用户则更多要求Claude创作与分析动漫及漫画内容和相关项目。

打开网易新闻 查看精彩图片

三种选定语言中更频繁出现的对话主题,图片来源:Anthropic

从技术角度来说,分析并总结用户与AI模型的对话情况并非难事,阻碍研究人员明确理解用户使用AI模型方式的一个关键因素是——隐私

在Anthropic,Claude模型默认不使用用户对话进行训练,并且其非常重视保护用户数据。那么,如何在不损害用户隐私的情况下,观察和研究AI系统的使用情况呢?

上文提到的这些研究的背后离不开Clio(Claude Insights and Observations),一个可深入了解真实世界AI使用情况并保护用户隐私的系统。

Clio在避免了人类分析师看到用户原始对话的同时,做到了对AI使用情况的有效分析。

打开网易新闻 查看精彩图片

Clio,图片来源:Anthropic

1.人类分析师没有看一条对话

“我们使用Claude来分析人们与Claude进行的对话,但我们当中没有人实际阅读了这些对话,事实上也没有人需要查看这些数据。”Anthropic社会影响团队研究科学家Deep Ganguli说。

Clio的核心理念是用Claude对这些对话进行总结、聚类和分析,确保分析结果在给到分析师前,已经移除所有可识别的、涉及个人隐私的细节。

打开网易新闻 查看精彩图片

Clio的分析步骤总结,图片来源:Anthropic

以一组虚构的对话分析为例,Clio会先随机抽取用户与Claude的对话(Conversations)

用户:我该如何系鞋带?我27岁了,有点…… 助手:当然!我们来讨论如何……

在这个虚构对话中,有用户的隐私信息——27岁,这是不能给分析师看到的,于是Clio就需要提取这段对话的特征(Facets),形成隐私化的摘要和提取的元数据:

如何系鞋带 英语 5轮对话

打开网易新闻 查看精彩图片

这些经过总结内容将会与其他相似的内容进行语义聚类(Semantic clustering),比如“系鞋带”和“扎辫子”会分到同一组。

再通过聚类描述(Cluster description),让每一组聚类都得到一个描述性标题和总结,比如“系鞋带”和“扎辫子”这一组就叫做“打各种各样的结”。

由此就形成了初始集群(Initial clusters)

打开网易新闻 查看精彩图片

接下来,初始集群会经过审核并递归分组形成分层集群(Hierarchical clusters),“打各种各样的结”会被归类到“日常生活技能”中,直到这一步,分析师才能看到相关内容。

打开网易新闻 查看精彩图片

简单来说,Clio多阶段处理过程包括:

提取特征(Extracting facets):从每次对话中提取多个“特征”(如主题、对话轮次、语言等元数据)。 语义聚类(Semantic clustering):根据主题或一般话题将类似对话自动归类。 聚类描述(Cluster description):为每个聚类提供描述性标题和摘要,捕捉共同主题并排除私人信息。 建立层级(Building hierarchies):将聚类组织成多层次结构,便于探索,供分析师使用交互式界面分析模式。

四个步骤完全由Claude驱动,而不是由人类分析师驱动。这是Clio隐私设计的一部分,具有多层“防御深度”。Clio还设定了独特用户或对话的最小阈值,以确保低频主题不会被意外暴露。作为最后的检查,Claude会在向人类用户展示之前验证聚类概要是否包含任何过于具体或识别性的信息。

“在我们写第一行代码之前,我们就在思考隐私问题,”Deep Ganguli介绍,“最根本的矛盾在于,我们想了解用户如何使用我们的系统,但我们也确实想尊重用户的隐私。”

高度保护隐私,意味着洞察力会变低,而低隐私保护虽然会带来更高的洞察力,但在伦理上就可能存在问题。

现在,Clio在两者之间做到了很好的平衡。

2.自下而上的自动分析工具

Anthropic分析这100万条对话,除了要了解用户使用习惯,更重要的是为了改进AI模型的安全措施。

想想看,AI模型提供者在部署前测试中投入了大量精力,并使用信任与安全系统来防止滥用。但是,语言模型能做的规模和多样性之大,使得理解它们的用途非常困难,更不用说进行全面的安全监控了。

Clio是一个自下而上的自动分析工具,与传统自上而下的安全测试方法截然不同。

红队测试(Red Teaming)就是一种传统的自上而下的安全测试方法,通常用于评估系统、组织或模型的漏洞和安全性。在人工智能领域,红队测试的目的是模拟潜在的攻击者行为,通过刻意寻找模型的弱点或错误来提升其鲁棒性和安全性。

传统自上而下的安全测试方法需要事先明确知道要查找的安全问题或威胁。而Clio可以通过分析大量数据自然地发现潜在的问题,而不是基于预设的假设进行检查,能更加灵活、全面地捕捉到未预见的问题。

在识别滥用信息方面,Clio不仅停留在监测网络上活动时关注的特定区域,它也在防御潜在威胁。

Clio能够检测到协同发送垃圾邮件的行为或其他可能违反道德规范的活动。在2024年美国大选前,Clio被用来监控与政治相关的讨论和互动,尤其针对滥用、谋取不正当利益的内容。

除了识别安全漏洞外,Clio对现有分类器(classifier)的准确性也做了一定提升。以前的分类器会因为内容的性质而将某些良性交互(如求职查询)误判为有害信息。通过Clio的细致检查,这类误判大幅减少。

事实上,Antropic不仅训练语言模型拒绝有害请求,还启用有针对性的信任与安全执行系统检测、阻止并处理违反使用政策的活动。

如今,Clio补充了这项工作,帮助Antropic了解如何改进和加强这些系统。

打开网易新闻 查看精彩图片

各个对话群集如何被信任与安全分类器系统评估的关注度,图片来源:Anthropic

尽管Clio在隐私评估中表现出色,但就像任何现实世界中的隐私系统一样,可能存在系统未能捕捉到某些类型私人信息的情况。为了降低这种潜在风险,Anthropic会定期对Clio的隐私保护和评估进行审计,以确保其防护措施按预期运行。随着时间的推移,Anthropic还计划在Clio中使用最新的Claude模型,以便不断改进这些防护措施的性能。

3.为何Anthropic如此重视安全

Anthropic成立于2021年,由达里奥·阿莫迪(Dario Amodei)和他的妹妹丹妮拉·阿莫迪(Daniela Amodei)共同创立。两人此前均在OpenAI担任重要职务,因对OpenAI发展方向产生分歧而离职,决定创办一家与OpenAI有不同价值观的AI公司。

在创立Anthropic之初,兄妹二人希望专注于人工智能的安全性和可解释性,致力于构建可靠、可控的AI系统。他们的公司名称“Anthropic”意为“与人类相关的”,体现了他们希望开发对人类友好的AI技术的愿景。

打开网易新闻 查看精彩图片

Anthropic宣传海报,图片来源:Anthropic

2021年,正是新冠疫情期间,Anthropic初创团队七个人经常戴着口罩,在旧金山的户外开会,他们认为这是一个“有趣的初创时期”。阿莫迪透露,2022年夏天他们就开发出了一款AI聊天机器人,但是他们选择继续进行安全测试,而不是立即发布产品。

2023年11月,OpenAI发布ChatGPT,拉开了这次AI浪潮的序幕。四个月后,Anthropic才推出了他们的AI大模型Claude。

Anthropic被视为OpenAI最有力的竞争对手。

据The Information报道,今年秋天时,OpenAI领导层就对Anthropic在自动编程领域的表现感到惶恐。其内部测试显示,Anthropic的模型已经超越了OpenAI。要知道,AI编程ChatGPT吸引数百万用户订阅的核心优势之一。

今年大火的初创公司Cursor也将默认编程助手从OpenAI的GPT系列更换为Anthropic的Claude系列。Cursor联合创始人阿曼·桑格(Aman Sanger)在今年10月的播客中表示,Anthropic的最新Claude 3.5 Sonnet模型以其“优秀需求理解力”成为编程工具的首选。

现在再看Anthropic公布的用户在Claude.ai上的使用场景的第一名——网页和移动应用开发,也就不足为奇了。

这也为Anthropic带来不错的商业化成果,Anthropic销售及合作伙伴关系总监凯特·詹森(Kate Jensen)最近透露,近三个月使用Anthropic模型做软件开发和代码生成的客户的年化收入增长了10倍。

但也有评论认为,Anthropic面临的限制因素是对安全性的极端重视,这也影响了其AI技术的发展速度。

AI安全和AI发展之间的关系在去年就引发了极大的争议,这也是去年底OpenAI宫斗事件的诱因之一,并在今年产生了影响。

今年5月,OpenAI超级对齐团队两位负责人接连离职。其中包括OpenAI联合创始人、首席科学家伊利亚·苏茨克维尔(Ilya Sutskever),以及该团队的负责人简·雷克(Jan Leike)。今年11月,OpenAI研究副总裁(安全)翁荔(Lilian Weng)也宣布离职。

甲子光年」据公开资料不完全统计,今年OpenAI安全团队离职的人员已超过10人。

前两天,OpenAI发布了o3模型。对于其安全性,OpenAI CEO萨姆·奥尔特曼(Sam Altman)认为,制定测试框架是十分必要的,“这种框架应明确重点监控和缓解的风险,并在模型发布前完成测试,类似于新药或新飞机的认证。”

打开网易新闻 查看精彩图片

图片来源:Sam Altman的X账号

关于AI安全的讨论并没有一个确切的答案,但一个企业的选择往往反映着其团队的价值观。

Anthropic社会影响团队研究员Miles McCain在Clio发布后就表示,只有深入了解我们的系统,才能有效执行政策,减轻模型可能带来的危害,理解模型对用户情感的影响。

“我发现,在Clio的集群中,人们在生活的许多方面与Claude建立了非常深厚的联系。他们将Claude视为教练、情感伙伴,甚至是在自己面临极具挑战性的问题时那个提供建议的人。我们有责任了解人们在这些脆弱时刻与Claude的对话方式,确保Claude能够符合他们的期望,并成为一个可靠的伙伴。”Miles McCain说。

*资料来源:

《Clio: A system for privacy-preserving insights into real-world AI use》,Anthropic

《How Anthropic Got Inside OpenAI's Head》,The Information

(封面图来源:AI工具生成)