打开网易新闻 查看精彩图片

研究人员表示,社交媒体上的匿名账户越来越容易被人工智能分析识别出其背后的真实用户,这一发现对互联网隐私具有深远影响。

这一发现来自最近发表的一篇研究论文,基于将特定个人与多个社交媒体平台上的账户或帖子进行关联的实验结果。成功率远超现有的传统去匿名化工作,后者依赖人类组装结构化数据集进行算法匹配或熟练调查员的手工工作。召回率(即成功去匿名化的用户数量)高达68%,精确度(即正确识别用户的猜测率)可达90%。

我知道你去年发布了什么

这些发现有可能颠覆假名制,这是许多人用来发布查询和参与有时敏感的公共讨论的一种不完美但通常足够的隐私保护措施,同时让其他人难以准确识别发言者。廉价快速识别这些隐藏账户背后真实用户的能力,使他们面临人肉搜索、跟踪以及详细营销档案汇编的风险,这些档案可追踪发言者的居住地、职业和其他个人信息。这种假名制保护措施不再有效。

"我们的发现对在线隐私具有重要影响,"研究人员写道。"普通网络用户长期以来一直在一种隐含的威胁模型下运作,他们假设假名制提供了足够的保护,因为有针对性的去匿名化需要大量努力。大语言模型使这一假设失效。"

研究人员从公共社交媒体网站收集了几个数据集来测试这些技术,同时保护发言者的隐私。其中一个数据集收集了Hacker News和LinkedIn个人资料的帖子,然后通过用户个人资料中出现的跨平台引用将它们链接起来。然后他们去除了帖子中所有识别性引用,并在其上运行大语言模型。第二个数据集来自Netflix发布的微身份数据,如个人偏好、推荐和交易记录。2008年的一篇研究论文显示,该列表可以识别用户并确定他们的政治倾向和其他个人信息。最后一种技术分割了单个用户的Reddit历史记录。

"我们发现这些AI智能体可以做一些以前非常困难的事情:从自由文本(如匿名采访记录)开始,它们可以追溯到一个人的完整身份,"论文共同作者Simon Lermen告诉Ars。"这是一个相当新的能力,以前的重新识别方法通常需要结构化数据,以及两个具有类似模式且可以链接在一起的数据集。"

Lermen说,与那些较老的假名剥离方法不同,AI智能体可以浏览网络并以与人类相同的许多方式与之交互。它们可以使用推理来匹配潜在个体。在一个实验中,研究人员查看了Anthropic关于各种人如何在日常生活中使用AI的问卷回答。使用从答案中获取的信息,研究人员能够准确识别125名参与者中的7%。

虽然7%的召回率相对较低,但它展示了AI基于人们提供的非常一般信息识别个人的日益增长的能力。"AI能够做到这一点这一事实本身就是一个值得注意的结果,"Lermen说。"随着AI系统变得更好,它们可能会越来越擅长找到更多身份。"

在第二个实验中,研究人员收集了2024年来自r/movies子版块以及至少五个较小社区之一的评论:r/horror、r/MovieSuggestions、r/Letterboxd、r/TrueFilm和r/MovieDetails。结果显示,候选人讨论的电影越多,识别他们就越容易。分享一部电影的用户平均有3.1%可以以90%的精确度识别,1.2%可以以99%的精确度识别。对于分享五到九部电影的用户,90%和99%精确度分别上升到8.4%和2.5%。超过10部共享电影将百分比提升到48.1%和17%。

在第三个实验中,研究人员从Netflix数据集中取出5000个用户,并添加了另外5000个不在结果中的"干扰"身份。然后他们在10000个候选档案列表中添加了5000个查询干扰项,包括只出现在查询集中、在候选池中没有真正匹配的用户。

与模仿Netflix Prize攻击的经典基准相比,大语言模型去匿名化远超前者。

研究人员写道:

(a) 经典攻击的精确度下降很快,这解释了其低召回率。相比之下,基于大语言模型的攻击的精确度随着攻击者做出更多猜测而更优雅地衰减。(b) 经典攻击在适度低精确度下几乎完全失效。相比之下,即使是最简单的大语言模型攻击(搜索)也能在低精确度下实现不可忽视的召回率,通过推理和校准步骤扩展它可以使99%精确度下的召回率翻倍。

结果表明,大语言模型虽然仍然容易出现假阳性和其他弱点,但正在迅速超越更传统的、资源密集型的在线用户识别方法。

研究人员继续提出缓解措施,包括平台对用户数据API访问实施速率限制,检测自动抓取,以及限制批量数据导出。大语言模型提供商也可以监控其模型在去匿名化攻击中的滥用,并建立防护措施使模型拒绝去匿名化请求。

当然,另一个选择是人们大幅减少社交媒体使用,或者至少定期在设定时间阈值后删除帖子。

研究人员警告,如果大语言模型在去匿名化方面的成功继续提高,政府可能会使用这些技术揭露在线批评者,企业可以组装客户档案进行"超精准广告投放",攻击者可以大规模构建目标档案以发起高度个性化的社会工程诈骗。

"大语言模型能力的最新进展清楚地表明,迫切需要重新思考计算机安全的各个方面,以应对大语言模型驱动的攻击性网络能力,"研究人员警告道。"我们的工作表明,隐私方面也可能如此。"

Q&A

Q1:大语言模型如何识别匿名用户身份?

A:大语言模型通过分析用户在不同社交媒体平台的帖子内容,使用推理能力匹配潜在个体身份。它们可以从自由文本(如匿名采访记录)开始,提取结构化身份信号,自主搜索网络识别候选个体,并验证候选人是否匹配所有提取的声明。

Q2:这种去匿名化技术的准确率有多高?

A:根据实验结果,召回率(成功去匿名化的用户数量)可达68%,精确度(正确识别用户的猜测率)可达90%。在Netflix数据集实验中,用户讨论的电影越多,识别准确率越高,超过10部共享电影的用户识别率可达48.1%。

Q3:如何防护这种大语言模型去匿名化攻击?

A:研究人员建议的防护措施包括:平台对用户数据API访问实施速率限制、检测自动抓取、限制批量数据导出;大语言模型提供商监控模型滥用并建立防护措施;个人用户可以大幅减少社交媒体使用或定期删除历史帖子。