上个月,一位金融风控工程师向我展示了一段视频。画面里是他的客户,正对着镜头完成身份核验——语速正常、表情自然,连左眉那道小疤痕都清晰可见。但音频要求转账的指令,客户本人从未说过。这不是换脸,而是更隐蔽的"唇形同步"伪造:真脸配假嘴型,传统检测工具几乎全部失效。

这种技术正在快速渗透高价值诈骗场景。与早期"整张脸替换"的粗糙方案不同,新一代攻击保留了目标人物100%真实的面部几何结构、皮肤纹理甚至微表情习惯。攻击者只需替换嘴部区域,让画面中的人"说出"任意音频内容。对于依赖边界伪影检测的算法而言,这相当于在真脸上做局部手术——面部核心特征库完全匹配,系统自然放行。

打开网易新闻 查看精彩图片

CVPR等顶会发表的研究揭示了关键突破口:音视频距离指标。真实视频中,口型与声波的同步误差中位数约为0.16;而唇形伪造内容即便质量较高,这一数值通常落在0.63至0.66区间。0.5左右的量化差距,成为算法可捕获的数学痕迹。更深层的漏洞在于双唇音的物理约束——发"p""b""m"等音时,上下唇必须闭合接触。生成模型为追求实时渲染速度,常在复杂口腔区域偷工减料,导致帧间牙齿位置漂移或齿列模糊。

打开网易新闻 查看精彩图片

CaraComp采用的欧几里得距离分析法,将检测策略从"人群扫描"转向"侧向比对"。通过将可疑视频帧与经核实的基准图像进行面部几何比对,系统能识别出哪些点位被数学拉伸以适配合成模型。这种方案对实时视频API场景尤为关键:100毫秒渲染压力迫使模型牺牲空间精度换取时间连贯性,而牙齿区域的帧间不一致性正是可量化的取证锚点。

打开网易新闻 查看精彩图片

调查技术的演进方向正在从"识别伪造"转向"量化偏差"。无论是开源情报研究员还是开发者,核心目标都是弥合身份鸿沟——为独立调查者提供与大型机构同等精度的欧几里得分析能力,让法庭认可的差异报告成为标配工具。当诈骗者开始用真脸说话时,检测方必须学会测量嘴型与声音的数学距离。