一个被索尼影业、派拉蒙影业选中的英语学习 App,把 4600 万条用户录音摊在了公网上。Cybernews 安全团队上周发现,日本热门应用 Abceed 的一个配置错误的谷歌云存储桶,相当于把 5 百万用户的"英语作业本"直接扔到了马路牙子上。
这 10TB 数据里没什么银行卡号,但每段录音都是真人真声——有人练雅思口语,有人跟读《老友记》台词,还有人可能正在复述自己的公司名和工号。对黑产来说,这是比密码更值钱的东西:你的声音,可以变成你的声音。
10TB"语音素材库"里有什么
Abceed 的模式不算复杂:用户跟读影视片段,AI 打分纠正发音。索尼、派拉蒙、TMS Entertainment 这些内容方提供版权素材,出版社三省堂配套教材,企业和学校批量采购账号——这套组合拳让它在日本英语学习市场站稳了脚跟。
但 Cybernews 研究人员在扫描暴露的云存储桶时,发现了这个"练习场"的后门。4600 多万个文件,绝大多数是用户上传的语音练习记录,时间跨度数年。更麻烦的是,部分录音文件名包含用户 ID 和时间戳,理论上可以关联到具体个人。
安全团队给出的风险评估很直接:这些录音是语音克隆(voice cloning)的饲料。现在的 AI 工具只需要 3 秒样本就能复刻声纹,而 Abceed 用户平均上传的片段长度在 15 秒到 2 分钟不等。
「恶意行为者可以利用泄露的录音数据集精心策划钓鱼活动。他们可以将语音克隆技术与语音钓鱼(vishing)结合,模仿受害者的声音。」Cybernews 在报告中写道。
语音数据为什么比密码更难"重置"
密码泄露了,用户改个密码就能止损。但声纹不是密码——你没法在泄露后"换一副嗓子"。
Abceed 的用户画像加剧了风险。企业培训用户可能在录音中提及内部系统名称、项目代号;学生用户的声音样本从小积累,十几年后仍是有效生物特征。更隐蔽的威胁是"深度伪造"(deepfake)的供应链:黑产不需要知道你是谁,只需要一段足够清晰的声音,就能生成以假乱真的通话录音。
日本国内对生物识别数据的保护并不宽松。2022 年修订的《个人信息保护法》将声纹纳入敏感个人信息,处理需获本人同意,且原则上不得向第三方提供。但 Abceed 的配置错误发生在存储环节——数据没"给"出去,而是"漏"了出去,责任认定会更复杂。
目前 Abceed 运营方尚未公开回应,存储桶在报告发布前已无法访问。但暴露时长未知,是否已被爬取更无从查证。
云存储桶:最容易被忽视的高危漏洞
这不是谷歌云存储桶第一次捅娄子。2023 年,Wiz 安全团队发现丰田汽车一个暴露的存储桶泄露了 30 万客户数据;同年,一家未具名的《财富》500 强企业因类似配置错误,导致 2.5TB 敏感文件裸奔。
云存储桶的权限配置是个"细活"。默认设置往往偏开放,开发者为了方便调试会临时放宽限制,事后忘记收紧。Abceed 的案例特殊之处在于:它暴露的不是结构化数据库,而是非结构化的海量文件——这种"散装"数据更难被常规安全扫描发现,但一旦暴露,体量惊人。
对于用户,能做的很有限。检查自己是否用过 Abceed,留意以"熟人声音"发起的异常通话请求,对任何涉及转账、密码、验证码的语音来电保持警惕——哪怕对方声音像你老板。
Abceed 的商业模式建立在"信任品牌内容"上:索尼的电影、派拉蒙的剧集、三省堂的教材。用户选择它,某种程度上是选择了这些背书的可靠性。但内容授权和 data security 是两回事——前者是商务合同,后者是工程能力。
这次事件后,一个值得追问的细节是:当索尼、派拉蒙们把 IP 授权给第三方 App 时,有没有把"用户数据保护"写进条款?还是说,内容方的合规团队只审版权,不审云配置?
你的声音,还在多少你忘记注册过的 App 里?
热门跟贴