2023年,Meta安全团队盯着一组数据发呆:单个诈骗账号被举报后,平均有47个关联账号仍在活跃。传统风控像打地鼠,封一个冒三个。他们换了个思路——不看账号本身,看账号之间的"社交指纹"。
结果12个月内,这套系统主动识别并清除了12万个恶意账号网络,误杀率比传统模型低62%。
从"抓坏人"到"找团伙":风控逻辑的致命转弯
传统反欺诈的思路很直接:分析单个用户的行为特征——登录频率、交易金额、设备指纹。问题是,黑产早就学会了"养号":一个账号的行为模式可以伪装得比真人还像真人。
但社交关系很难伪造。诈骗团伙需要规模化运营,账号之间必然存在资金流转、设备共用、内容协同。Meta安全工程师Adrian Benton在论文里打了个比方:「单看一棵树,你分不清它是森林还是盆栽。但看树根怎么缠在一起,一眼就知道。」
图机器学习(Graph ML,图机器学习)做的就是这个——把账号、设备、交易记录变成节点,把关联关系变成边,让整个黑产网络显形。
具体怎么操作?Meta的模型叫GNN-Safe,核心就三步:
第一步,构图。节点不只是用户账号,还包括手机号、邮箱、设备ID、支付账户、甚至Wi-Fi热点。一条边代表"共享"关系——两个账号用过同一部手机,连一条边;绑定同一张信用卡,再连一条边。
第二步,传播。已知诈骗账号的标签,像墨水一样沿着边扩散。距离越近的节点,特征越相似。一个诈骗账号的"社交半径"内,其他账号的恶意概率被重新计算。
第三步,聚合。每个节点的最终判断,不仅看自身行为,还看邻居的"投票"。一个账号行为正常,但80%的关联账号已被标记诈骗,它就会被重点审查。
这套机制最狠的地方在于:黑产越规模化,暴露越快。 小作坊可能只有3-5个账号,藏在网络边缘难以识别。但大型诈骗网络动辄上千节点,图谱密度一高,像墨水滴进清水,边界清晰得刺眼。
12万网络怎么算出来的:一场持续12个月的"钓鱼实验"
Meta的验证方法很实在。他们没有等举报,而是主动"钓鱼"——用已知诈骗账号作为种子,让模型预测其社交圈内的风险账号,再人工审核预测结果。
2022年6月到2023年6月,GNN-Safe从种子节点向外扩展,平均每个种子牵出23个关联账号。人工审核确认:这些预测账号的恶意比例达到89%,远超随机抽查的12%。
更关键的是"零日发现"——没有用户举报、没有行为异常,纯靠图谱关系锁定的账号占37%。这意味着,大量诈骗网络在造成实质损失前就被连根拔起。
但数字背后有个细节容易被忽略:模型对"边缘账号"的判断置信度普遍低于0.7,而核心节点的置信度超过0.95。Meta的处理方式是分层——核心节点直接封禁,边缘节点触发二次验证(短信+人脸识别)。这种"梯度打击"把误杀率压到了3%以下。
对比传统XGBoost模型,图神经网络的优势在特定场景被放大:
设备农场场景——同一批手机批量注册账号。传统模型看行为,这些账号登录时间、操作路径刻意错开,很难识别。图模型直接捕捉"共享设备ID"的密集子图,一抓一串。
洗钱网络场景——资金多层跳转,单笔交易金额正常。图模型追踪资金流向的拓扑结构,识别"星型汇聚"(多个账号向中心节点转账)和"链式拆分"(资金快速分散),这些模式在行为数据里完全隐形。
内容农场场景——虚假评论、钓鱼链接的发布账号。图模型发现这些账号的内容相似度极高,但发布时间刻意分散。关键关联在于:它们共享同一批图片素材库,上传行为的设备指纹高度重合。
黑产的反击与模型的"阿喀琉斯之踵"
任何风控系统上线,对抗就开始了。Meta论文里坦诚披露了三种绕过尝试:
第一种,关系稀释。黑产开始给诈骗账号"掺沙子"——让部分账号与正常用户建立弱关联,比如互加好友、点赞互动。理论上这会增加图谱噪声,但实验显示:正常用户的社交网络密度远低于黑产网络,"掺沙子"反而让异常子图的边界更突兀。
第二种,设备隔离。每个账号配备独立设备,切断硬件层面的关联。成本飙升不说,设备本身的采购渠道(同一批IMEI号段、同一供应商)又形成了新的图谱特征。
第三种,慢速养号。延长账号培育周期,模拟真实用户的行为轨迹。但这与黑产的"快速变现"需求直接冲突——养号6个月的成本,可能超过单次诈骗的收益。
Benton在内部访谈中提到一个细节:「最让我们头疼的不是技术对抗,是合法用户的'误伤申诉'。有个案例,一家人共用三部手机、两个支付账户,图谱结构像极了小型诈骗网络。」
这指向图神经网络的核心困境——关系即证据,但关系也可能是巧合。 Meta的缓解方案是引入"时间衰减":关联关系越久,权重越低。一家人五年共用设备,权重降到0.1;诈骗团伙三天内密集操作,权重保持1.0。
另一个未被充分讨论的点是数据边界。Meta的图谱覆盖Facebook、Instagram、WhatsApp三端,但黑产早已跨平台运营——Telegram接单、TikTok引流、加密货币钱包结算。单平台图谱再精密,也只是拼图的一角。
国内玩家的跟进与场景变形
Meta论文公开后,国内大厂的风控团队很快跟进。但场景差异导致技术路径分化:
支付宝的图神经网络侧重资金网络,节点是账户,边是转账关系。他们的创新在于"动态边权重"——同一对账户,凌晨3点的转账比下午3点的风险权重高40%,因为符合"跑分"团伙的作息特征。
微信的安全团队面临更复杂的社交图谱。他们的解法是把"群聊"作为超级节点——一个500人群里若有3个已知诈骗账号,整个群的信任评分降级,新入群成员触发额外验证。
字节跳动的挑战在于内容关联。短视频平台的黑产不依赖社交关系,而是"内容模板"共享——同一批脚本、同一批BGM、同一批评论区话术。他们把视频帧特征向量化,构建"内容相似度图",用图神经网络识别批量生产的虚假内容。
这些变形的共同点是:图的结构不再预设,而是从业务场景中"长"出来。Meta的社交图谱、支付宝的资金图谱、字节的内容图谱,底层算法相通,但构图逻辑完全不同。
一个值得玩味的对比是准确率。Meta的GNN-Safe在公开测试集上的AUC达到0.94,但国内某支付平台的内部数据显示,他们的图模型AUC只有0.87,实际拦截率却更高。原因是阈值策略——Meta追求低误杀,国内平台优先止损,宁可错杀也不漏过。
这没有标准答案,只是风险偏好的问题。但Benton的一句话值得琢磨:「模型准确率每提升1%,背后可能是十万用户的体验折损。我们花了一年时间,才把0.94推到0.95。」
2024年初,Meta安全团队更新了GNN-Safe的架构,把图神经网络的层数从3层加到5层。理论上,更深的网络能捕捉更远距离的关联,但计算成本指数级上升。他们最终妥协的方案是"分层采样"——核心节点全量计算,边缘节点随机采样,在精度和效率之间找平衡点。
这套系统现在每天处理超过50亿个节点、2000亿条边。Benton在最近一次技术分享中展示了一张可视化图谱:一个被标记的诈骗网络像一颗坏死的细胞,周围是密密麻麻的健康组织,边界清晰得让人不适。
他最后放了一张截图——某个被拦截账号的申诉记录,用户写道:"我只是帮朋友转了下账,为什么封我?" 系统标注的关联路径显示:这位"朋友"的账号,与17个已知诈骗节点存在设备共用。
图谱不会撒谎,但图谱的故事需要人来讲。当风控越来越依赖算法判决,谁来定义"关联"与"共谋"的边界?
热门跟贴