来源:市场资讯

(来源:图灵人工智能)

转自腾讯科技,仅用于学术分享,如有侵权留言删除
打开网易新闻 查看精彩图片
转自腾讯科技,仅用于学术分享,如有侵权留言删除

文|博阳

编辑|徐青阳

打开网易新闻 查看精彩图片

近日,硅谷顶级AI公司Anthropic与美国国防部(DoD)之间的一场博弈,成了AI圈的焦点。在宣布与五角大楼合作时,Anthropic特别强调了两条红线:AI不得用于攻击性武器,也不得用于大规模国内监控。

打开网易新闻 查看精彩图片

但这种传统的去匿名化方法耗时耗力,需要人工比对大量信息,通常只针对引发公众关注的高价值目标。

而企业想要了解用户偏好来精准推送广告,则更依赖IP地址、设备指纹、跨应用追踪这些相对便宜的技术手段。但这些方法在日益严格的隐私保护政策下,正变得越来越困难。

然而,AI的到来可能彻底改变这个游戏规则。Anthropic自己和黎世联邦理工学院等机构近期发布的一篇重磅论文《利用大语言模型进行大规模在线去匿名化》,就对AI的开盒能力进行了一次极限测试。

打开网易新闻 查看精彩图片

他们的结论是,AI,以其精准度与低廉的成本,基本已经宣判了互联网匿名时代的死刑。

所以Anthropic的担心完全有道理。因为你,随时都可以被从匿名之壳中被任何人轻易的定位。

01

开盒简史,从手工作坊到自动化流水线

打开网易新闻 查看精彩图片

但Netflix攻击的这个策略有个限制,即它需要结构化的数据。电影评分是整齐的数字矩阵,可以用算法直接比对相似度。

打开网易新闻 查看精彩图片

过去需要人类专家耗费数小时才能完成的逻辑推理和信息提取,现在大模型只需要几秒钟和极低的算力成本就能完成。

提出安全红线的Anthropic,在2025年12月公开了125名科学家与AI的访谈记录,讨论他们如何在工作中使用AI工具。这些记录做了部分编辑(隐去敏感信息),本意是保护隐私。

但就在数据发布几周后,就有研究者通过LLM匹配访谈中提到的研究课题和已发表的论文,找到了被访者的真实身份。33名谈论过去研究的科学家中,AI成功识别了9人,比先前的方法多找到50%。

打开网易新闻 查看精彩图片

(Anthropic访谈的开盒方法)

而这只需要几分钟和几美元。

AI并没有发明新的攻击逻辑,它只是以前所未有的规模和极低的成本,将这种攻击普及到了互联网的每一个角落。

02

AI开盒,只需四步

为了验证AI的真正实力,研究团队设计了一套名为ESRC的可扩展自动化攻击流水线。这套流水线将去匿名化分解为四个高度自动化的步骤。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

当然,这项研究本身面临一个矛盾:要验证攻击效果,需要知道正确答案,但知道答案意味着用户本来就不够匿名。

研究者采取了两种策略。一种是合成匿名化,即找那些主动公开身份的用户(比如Hacker News账号简介里写了LinkedIn链接),然后用AI把所有直接标识符抹掉(姓名、链接、GitHub账号),只保留语义信息,看AI能否重新识别。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

03

三种场景,层层递进的威胁

打开网易新闻 查看精彩图片

跨平台匹配

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

而且AI的优势随着候选池扩大而愈发明显,当候选人从1000增加到89000,传统方法彻底崩溃,AI方法的召回率只下降了13个百分点。研究者还做了大胆的推算:如果候选池扩大到100万人(接近真实平台的规模),AI仍可能保持35%的召回率;即使是1亿候选人,理论上还能识别27%。

跨社区匹配

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这次AI的表现相对温和:90%精准率下召回率为8.5%,99%精准率下降到2.8%。

但这个场景引出了信息丰度的区分度,即到底需要透露多少信息,一个人才会被AI锁定?研究发现,即便是极少量的信息,也没有绝对的安全阈值。只提到1部共同电影的用户,召回率是3.1%;提到5-9部的,召回率跃升到23%;提到10部以上的,召回率高达48%。你在网上的每一次主观表达,都在不断增加你数字拼图的清晰度,而且是非线性的加速暴露。

打开网易新闻 查看精彩图片

更值得注意的是,使用"高推理努力"模式的GPT-5.2比低推理努力的效果好了一倍(99%精准率下2.8% vs 1.4%),说明AI的推理能力仍在快速进化,未来模型会更强。

打开网易新闻 查看精彩图片

跨时间匹配

第三种场景是更加极限的跨时间匹配。人是会变的,一个人的关注点、居住地和心境都会随着时间流逝而改变。因此时间往往被视为保护隐私的天然屏障。

为了挑战这一屏障,研究团队将Reddit用户的发言历史按照一年的时间跨度硬生生切开,用一年前的发言去匹配一年后的账号。这考验AI的核心理解能力,它需要能从表面的话题差异中,抓住深层的、持久的身份特征。

在这种极其困难的场景下,为了确保极低的误报率,AI使用了前文提到的校准步骤。

打开网易新闻 查看精彩图片

在5000个测试用户、10000个候选档案的设置下,加了校准的AI达到了67.3%的召回率(90%精准率)和38.4%(99%精准率)。

这比跨社区匹配高得多,说明即使话题变化,一个人的深层特质,如地理位置、职业领域、核心价值观、兴趣爱好还是相对稳定的。

结果证明,哪怕跨越了一年的岁月鸿沟,AI依然能够精准提取那些极其稳定的人格特征和微观数据,将过去与现在的你死死绑定在一起。

研究者还做了一个极端测试:如果只有千分之一的查询用户在候选池中有真正的匹配(99.9%都是找不到的),AI还能工作吗?答案是依然可以。即使匹配概率降到万分之一,AI仍能在90%精准率下识别出约9%的可匹配用户。

打开网易新闻 查看精彩图片

这意味着,就算绝大多数人根本不在被搜索的数据库中,那些确实能被识别的人,还是会被AI揪出来。

04

匿名的终结

这些实验结果基本上已经宣布了网络匿名时代的终结。

研究者测试了几种防御方法,结果都不乐观。可以限制API访问速度,但攻击者可以分布式爬取;可以检测自动化行为,但AI的使用模式很像正常用户的高度阅读;可以用差分隐私或k-匿名性技术,但这些都是为结构化数据设计的,对自由文本效果有限。

甚至LLM提供商的安全防护也难以奏效,因为这套攻击管道的每个步骤(总结、嵌入、比对)看起来都像正常使用,很难被检测为滥用。

唯一有效的防御,是平台从一开始就不公开用户的历史发言。

那互联网还有什么用呢?

你在论坛寻求医疗建议,必然要描述症状和病史;你在技术社区请教问题,需要说明你用的工具和遇到的错误;你在影评网站分享观感,自然会暴露品味和观影习惯。这些信息本身无害,却正是AI用来识别你的微数据。

而只需要几台服务器和一套LLM管道。不需要侵入任何私人设备或通讯,只需要分析公开信息,就足以从网络中定位具体的你。隐私政策和用户协议在这里完全无效,因为数据本就是公开的。

要彻底防御,你只能选择闭嘴,那等同于退出了现代社会的协作网络;如果你选择发声,你就是在向深渊递交自己的身份证。

而Anthropic承诺不把AI用于大规模国内监控,这是值得赞许的立场。

但正如这项研究所展示的,监控所需的能力已经不需要专有模型,用公开可用的LLM、标准的API、普通的数据集,就能实现曾经只有情报机构才具备的能力。

从技术条件、安全保护等一切可能的方面,都没有任何人能阻止你被极低成本的开盒。

AI时代,匿名已死。

也许在AI的未来中,逃避被控制的艺术将不再是躲入山中,而是永久下线。