你正在刷手机,突然收到一条语音消息——是你妈的声音,说她被绑架了,要你立刻转账。你手抖着回拨过去,电话那头确实是她的声音,带着哭腔。但十分钟后,真妈打来电话:刚才在买菜,啥事没有。
这不是科幻片开场,是2024年普通人可能遭遇的日常。更荒诞的是,现在有一整批公司专门靠"造假"来打假。它们训练人工智能(Artificial Intelligence,简称AI)生成假视频、假音频,再用另一套AI识别这些假货。这个"以毒攻毒"的产业,2023年估值已经达到55亿美元。
一场失败的"骗爸妈"实验
《The Verge》记者Gaby Del Valle最近干了件缺德事:她用深度伪造(deepfake)技术克隆了自己的声音,打电话给她爸。
电话接通,假Gaby说"你好",问老爸最近怎么样。老爷子没立刻回话,假Gaby又追问了一遍。结果她爸几乎瞬间识破:「那是什么,Gaby?」记者解释自己在做实验,她爸毫不留情:「确实没骗到。听起来像个机器人。」
实验失败得很彻底。她爸妈当时在国外,网络信号差;他们正在和朋友吃午饭,背景有交叉对话和延迟,假Gaby试图填补沉默间隙,反而露馅。最关键的是——声音像人,但不像她。
这个假声音来自一家叫Reality Defender的公司。讽刺的是,这家公司主业是"检测深度伪造",却靠"制造深度伪造"来训练检测模型。要识别假货,得先知道假货长什么样。这个逻辑简单到近乎荒谬,却是整个行业的核心方法论。
深度伪造没有统一特征,除了"都是AI造的"
「深度伪造」这个词本身就有误导性。它原本特指用深度学习(deep learning)生成的伪造媒体,但现在被泛化到几乎所有AI生成的假内容。真正的问题是:这些假货没有共同特征。
它们被用来诈骗、骚扰、玩梗。Grok AI这类工具催生了大量非自愿的色情深度伪造,包括儿童性虐待内容。骗子克隆亲人声音打绑架勒索电话。2024年美国大选期间,一名政治策略师和魔术师合作制作了前总统拜登的深度伪造视频,用来劝阻新罕布什尔州的注册民主党人参加初选。
参议院外交关系委员会主席甚至接到了一个Zoom电话,对方是——
原文在这里断了。但已经足够说明问题:深度伪造的威胁场景如此分散,从情色黑产到选举干预,从电信诈骗到国际政治,没有任何单一技术特征能把它们归为一类。除了"都是AI生成的"这个制造方式上的共同点。
这给检测带来了根本难题。你不能教AI找"假笑"或"不自然的眨眼",因为有些深度伪造根本没有这些破绽。有些假视频比真视频还"真"——光线、皮肤纹理、微表情都无可挑剔。
唯一的办法是让检测系统见过足够多的"假",才能在统计意义上识别异常。而"见多识广"的前提是:你得能造。
三家公司的三种"造假"姿势
Reality Defender、Pindrop、GetReal——这三家代表了这个55亿美元 cottage industry( cottage industry,原指家庭手工业,这里指规模小但增长快的细分产业)的不同打法。
Reality Defender走"全栈"路线。既做生成(给客户演示假视频多逼真),又做检测(卖企业级API)。他们的商业模式很直白:向银行、保险公司、媒体机构出售实时检测服务。记者那个"骗爸实验",其实是他们的产品demo的一部分——"看,我们能造多像,就能识多准"。
Pindrop专攻语音。2011年成立,原本做电话欺诈检测,深度伪造爆发后顺势转型。他们的核心资产是一个庞大的"声纹数据库"——包括真人录音和AI合成语音。据公开资料,Pindrop的语音生物识别技术已应用于全球超过80%的美国银行呼叫中心。
GetReal则更像"学术派"。创始人来自MIT和斯坦福,强调"可解释性"——不仅告诉客户"这是假的",还要指出"哪里假"。这在监管敏感场景(如法庭证据、新闻审核)很重要,但技术门槛也更高。
三家的共同点:都需要持续生成新的假内容来训练模型。深度伪造技术每升级一次,检测模型就得"补课"。这是一场没有终点的军备竞赛。
为什么"以假打假"是死循环
这个商业模式有个内置悖论。
第一,生成技术比检测技术进化更快。GAN(生成对抗网络,Generative Adversarial Network)刚出来时,检测器能抓出99%的假货;现在扩散模型(diffusion model,一种通过逐步去噪生成图像的AI技术)生成的图片,专业检测器也频频翻车。生成模型的目标是"骗过人",检测模型的目标是"不被骗",但前者只需要赢一次,后者需要赢每一次。
第二,数据获取的伦理困境。要训练检测器,需要大量"真实"的深度伪造样本。但这些样本往往涉及非自愿色情、诈骗录音等违法内容。公司们要么用合成数据(自己造),要么和执法部门合作获取案例——两者都有局限。合成数据可能不够"真实",真实案例又涉及隐私和授权。
第三,客户付费意愿的错位。企业客户愿意为"检测"买单,但不愿意为"生成"买单——尽管后者是前者的必要成本。这导致一些公司把"生成能力"包装成"安全测试服务"或"红队演练"(red teaming,指模拟攻击者测试系统漏洞),变相收费。
最讽刺的是,这个产业的存在本身就在加速问题恶化。每一家检测公司都是一家潜在的"造假供应商"——他们的生成模型万一泄露,就直接成为黑产工具。2023年就有案例:某检测公司的内部模型被员工倒卖,流入 Telegram 群组。
55亿美元估值背后的资本逻辑
2023年的55亿美元估值,不是按"检测准确率"算的,是按"恐惧溢价"算的。
深度伪造的威胁被严重高估了吗?部分是的。Gaby Del Valle的实验就证明:当前技术下,真人还是能识破克隆语音——至少在非理想条件下。但资本不在乎"当前",在乎"趋势"。生成式AI的迭代速度让所有人假设:明天就会有一个无法识别的假视频出现。
这个假设自我实现。企业采购检测服务,不是为了解决今天的问题,是为了对冲明天的风险。保险公司卖"深度伪造险",银行买"语音生物识别"系统,社交媒体平台部署实时视频审核——每一层防御都在给这个产业输血。
更隐蔽的驱动力是合规。欧盟《AI法案》、美国各州的深度伪造立法、中国的深度合成管理规定——监管框架越密,企业越需要"合规工具"。检测服务成了法务部门的采购项目,技术性能反而次要。
这就解释了为什么Reality Defender这类公司能拿到融资:它们卖的不是技术,是"尽职调查证明"。客户可以告诉董事会和监管者:"我们已经部署了行业领先的检测方案。"至于实际拦截率是多少,是另一个问题。
普通人能做什么?记者实验的启示
Gaby Del Valle的"骗爸实验"失败了,但失败本身很有价值。
她总结的破绽——网络延迟、背景噪音、对话节奏——恰恰是真人互动的"防伪特征"。深度伪造在受控环境下(安静房间、固定脚本、单人画面)表现优异,但在真实生活的混沌中容易露馅。
这给普通人的防御策略很直接:
制造"噪音"。让通话环境复杂一点,多问几个只有真你知道的问题,故意打断对方说话节奏。深度伪造模型擅长"生成",不擅长"应对"。
建立"暗号"。和家人约定一个只有线下知道的验证词,不在任何数字渠道提及。这不是新技术,是冷战时期的间谍手法——但对付AI,老办法往往有效。
延迟决策。任何紧急转账要求,强制冷却十分钟,换渠道二次确认。深度伪造诈骗的核心是制造紧迫感,打破这个节奏就破了局。
这些策略不依赖任何检测技术,依赖的是人对"情境"的感知——而这是当前AI最弱的一环。
产业终局:检测会成为基础设施,还是泡沫?
两个相反的趋势正在拉扯这个55亿美元的市场。
向下整合。大型云平台(AWS、Azure、Google Cloud)正在把深度伪造检测打包进内容审核服务,作为标准功能提供。这对独立创业公司不是好消息——它们的技术差异化会被规模效应碾平。
向上迁移。高端场景(法庭、情报、外交)需要"可解释、可审计"的检测方案,愿意付溢价。这可能是创业公司最后的堡垒,但市场容量有限。
最可能的结局是分层:底层检测成为基础设施,免费或低价;顶层定制服务小众高价;中间层大量公司消失或被收购。
但有个变量可能颠覆一切:如果生成模型和检测模型最终合并呢?OpenAI、Google、Meta 这些同时拥有顶级生成能力和海量数据的公司,完全可能把检测作为"安全功能"内嵌到产品中,而不是外包给第三方。届时,cottage industry 的独立玩家们将失去存在价值。
数据收束
55亿美元,是2023年这个"以假打假"产业的估值。它建立在两个未经验证的假设上:深度伪造将无处不在,且必须由专业公司来检测。
但Gaby Del Valle的实验数据给出了另一种可能:在真实世界的粗糙网络条件下,当前技术生成的假语音,识别率接近100%(至少对亲密关系中的听者而言)。这意味着产业的价值可能不在"技术检测",而在"风险转移"——让企业有东西可买,让监管有对象可罚,让资本有故事可讲。
真正的防御可能从来不在这些55亿美元的系统里,而在那个十分钟的冷却期、那个只有线下知道的暗号、那句故意打断的追问里。技术制造了问题,但解决问题的,可能还是人。
热门跟贴