深度伪造新变种：唇形同步诈骗正绕过传统检测|唇形同步|深度伪造|算法

上个月，一位金融风控工程师向我展示了一段视频。画面里是他的客户，正对着镜头完成身份核验——语速正常、表情自然，连左眉那道小疤痕都清晰可见。但音频要求转账的指令，客户本人从未说过。这不是换脸，而是更隐蔽的"唇形同步"伪造：真脸配假嘴型，传统检测工具几乎全部失效。

这种技术正在快速渗透高价值诈骗场景。与早期"整张脸替换"的粗糙方案不同，新一代攻击保留了目标人物100%真实的面部几何结构、皮肤纹理甚至微表情习惯。攻击者只需替换嘴部区域，让画面中的人"说出"任意音频内容。对于依赖边界伪影检测的算法而言，这相当于在真脸上做局部手术——面部核心特征库完全匹配，系统自然放行。

CVPR等顶会发表的研究揭示了关键突破口：音视频距离指标。真实视频中，口型与声波的同步误差中位数约为0.16；而唇形伪造内容即便质量较高，这一数值通常落在0.63至0.66区间。0.5左右的量化差距，成为算法可捕获的数学痕迹。更深层的漏洞在于双唇音的物理约束——发"p""b""m"等音时，上下唇必须闭合接触。生成模型为追求实时渲染速度，常在复杂口腔区域偷工减料，导致帧间牙齿位置漂移或齿列模糊。

CaraComp采用的欧几里得距离分析法，将检测策略从"人群扫描"转向"侧向比对"。通过将可疑视频帧与经核实的基准图像进行面部几何比对，系统能识别出哪些点位被数学拉伸以适配合成模型。这种方案对实时视频API场景尤为关键：100毫秒渲染压力迫使模型牺牲空间精度换取时间连贯性，而牙齿区域的帧间不一致性正是可量化的取证锚点。