2024年的WWDC上,苹果公布了自家的人工智能平台Apple Intelligence。2024年秋季,Apple Intelligence在美国开启测试,后续逐渐拓展到更多地区。
不过,到目前为止,国行Apple Intelligence仍然没有落地。对此,苹果官方的说法是「Apple 智能推出时间依监管部门审批情况而定。」
(图源:苹果)
日前,知名苹果爆料网站9to5Mac发文称,苹果联合中国人民大学推出了VSSFlow新型AI模型,宣布在音频生成技术取得了突破。苹果此举不仅是一次AI技术实力的展示,同时似乎也在释放和国行Apple Intelligence相关的积极信号,Apple智能真的要来了吗?
无声视频自动配音,VSSFlow能解决哪些难题?
通过苹果和中国人民大学联合发布的论文以及9to5Mac的相关报道,我们可以了解到,VSSFlow的主要亮点是打破了以往「环境音」和「对话语音」需要分别生成的限制。具体来说,以往的大部分视频生成语音模型,都是把音频中的环境音和人声分开处理,而VSSFlow的优势在于一站式同步生成。
(图源:arXiv)
根据官方的说法,VSSFlow模型生成环境音的方式是每秒读取10帧视频画面作为线索,然后在随机噪声中逐步「构建」出画面的声音。这个表述听起来很简单,但实现起来并不容易。一段没有声音的视频,AI当然也不可能「听」得到,本质上还是根据视频画面来「猜」最接近最真实的环境音,比如判断出画面中的具体现实场景,再匹配相应的环境音。
VSSFlow对应的论文提到了关键的技术点——Flow-matching(流匹配),在AI世界中,模型需要通过杂乱的信息推理生成最可能的声音。视频画面中藏着声音对应的线索,AI就是要在这些杂乱的「噪音」和目标声音之间建立起到达的路径,也就是「流」。建立「流」的关键,是对视频画面和文字脚本的准确理解。
(图源:arXiv)
至于文本生成语音的能力,在早期就存在很多解决方案。比如说,早前的智能手机以及很多阅读App,都有TTS(文字转语音)功能,它们只要把文字直接转成语音库里的预制音频即可。不过,这种方案比较简单粗暴,声音听起来机械感明显,长句断句会很奇怪。AI时代,大模型加持的文字转语音体验得到了大幅升级,真人感更明显,无论是断句、语气还是情绪,都逐渐能做到以假乱真。
VSSFlow的视频生成人声技术,特点在于通过视频脚本+视频画面来生成音频,可以通过画面中人物的口型、表情等因素来匹配语音的语气、情绪、节奏等,从而生成更真实的AI人声。
开头说到了,VSSFlow能够同时为视频生成环境声和人声,根据官方描述,他们将视频信号和文本转录一起嵌入到音频生成的过程中。为了达到这一效果,研究人员进行了混合数据训练,具体表现为VSSFlow模型训练时使用了无声视频配环境音、无声说话视频配文本、以及纯文本转语音的数据。
简单总结下,VSSFlow是一款视频生成音频大模型,能同时为无声视频生成环境声和人声,核心优势在于通过流匹配技术提升了生成效率和音频质量。
用AI生成语音,有点用但仍然太局限
VSSFlow帮助视频生成环境音和人声的功能,具体能应用到哪些场景呢?小雷能想到的大概就是老旧电影的音频修复、失语障碍人士的辅助音频、影视作品配音等。毕竟,VSSFlow仍然需要依赖文字脚本来生成人声,不能只根据视频画面来推测出人声,这将让它更接近于一款更好用的配音工具。
目前市面上和VSSFlow最接近的大模型,应该是谷歌的Deepmind V2A(视频转音频)。V2A也是根据视频画面和文字脚本来生成对应的环境音和人物对话,它的技术方案是在视觉信息和听觉信息之间建立起映射机制。
具体来说,视觉信息包含的主要是空间、色彩、形状、运动等,听觉信息一般是音色、频率、节奏等,二者是不同的语义。将视觉特征和听觉特征进行多层次的映射,持续训练后,AI就能根据视频画面的信息「猜」出它应该匹配何种听觉特征的音频。
(图源:谷歌)
不过,在小雷看来,视频生成语音技术的应用场景,还是略微局限了一些。对普通用户来说,这项功能的作用不是特别大。作为对比,当下流行的视频生成技术,更加受创作者和普通用户欢迎。使用者只要用一段话、几张图片,就能快速生成一段高真实度的视频,实用性和趣味性都能瞬间拉满。比如最近的Seedance 2.0,刚上线就火爆全网,大量用户第一时间就尝鲜体验了。
(图源:雷科技,用Seedance 2.0制作)
但给无声视频配音这个场景,大部分人都很难遇到,毕竟我们不会无缘无故制作或者得到一段无声视频。它更加适用于影视制作行业中的某些细分领域,比如传统拟音师的工作。
我们在很多影视作品中听到的环境声和动作声,其实都是拟音师在录音棚里录的,比如敲击椰子壳模拟马蹄声、搓动门锁模拟手枪上膛声等。同时,VSSFlow根据脚本和画面生成人声的功能,和动漫声优所做的配音工作很接近。可以想象到的是,音频生成技术未来对影视行业产生的冲击力会相当大。
同时,VSSFlow为代表的语音生成模型,固然不太可能作为独立的应用向普通用户推出,但和其他AI技术结合,会发挥出更大作用。比如它可以和视频生成模型相结合,现在流行的视频生成模型制作出来的视频,大多会有配音。
不过,很多AI生成视频的背景音和人声质量都相对一般,如果有VSSFlow之类的语音生成模型助力,那么整体的效果会更好。实际上,谷歌Deepmind的V2A技术并没有以单独模型的方式发布,而是将部分功能整合在谷歌自家的视频生成模型Veo中。
苹果联手国内重点高校,国行版AI要来了?
对于苹果产品,VSSFlow能落地的场景,小雷首先想到的是无障碍功能。目前苹果设备的辅助选项中已经有实时语音功能,即用户可以手机上打字,然后转成音频。
(图源:苹果)
如果VSSFlow能运用到这个场景里,那么语言障碍人士就可以在FaceTime之类的视频通话中,边输入文字,边让AI结合视频画面生成更自然的人声。当然,这项技术也能作为苹果在AI领域的储备,为后续视频生成等功能或应用提供助力。
而且,苹果和国内重点高校合作、联合发布VSSFlow,无疑是在释放愿意深耕国内市场、推动国行AI落地的积极信号。在VSSFlow的论文中,署名者中六位是来自中国人民大学的学者,三位是苹果的研究员。在这个项目中,苹果扮演的角色更接近于支持者、参与者而非主导者。
目前,国行版Apple Intelligence尚未推出。按照苹果的政策,国行版iPhone等设备无法使用外版Apple Intelligence,未来外版硬件产品也不能用国行版Apple Intelligence。
基本可以确定的是,国行版Apple Intelligence的落地过程中,苹果会和国内AI巨头达成合作。之前的传言中,百度、阿里、DeepSeek等都是苹果接触过的厂商。2025年,彭博社知名记者马克·古尔曼曾透露,国行Apple Intelligence采用的方案是阿里提供本地模型支持,百度文心一言提供云端AI支持。不过,国行Apple Intelligence 2025年未能落地,主要原因在于遇到了一些工程难题,同时国行AI的表现比较一般。
不过即便忽略国行版AI缺位的事实,苹果的AI布局相对其他厂商是比较落后的。目前而言,海外版Apple Intelligence实现的功能和场景,其实没有太多特别之处,反而因为其相对羸弱的AI实力而被吐槽。比如说,苹果近年推出的生成式图片App「图乐园(Image Playground)」,就饱受批评。这款App对图片生成行为的管控非常严格,很多用户的需求都被拒绝,被吐槽为只适合儿童使用的产品。
Apple Intelligence还引入了外部力量来帮忙,主要是ChatGPT,后续还有Gemini。其中,ChatGPT植入到了Siri中,让Siri更像一个完全体的智能助理而非传统的语音助手。另外,AI相关的功能还有写作助理、图片消除等。只是,苹果这些所谓的AI功能,实际体验起来震撼感不够强,有点小打小闹的感觉。
而且,苹果为iOS 26画的AI饼,至今还没让用户吃上。根据最新消息,iOS 26.4的首个测试版将于2月底推送,会给AI带来一点变化。这次系统升级,主要就是Siri会得到增强,包括拥有上下文理解能力、跨应用操作能力和屏幕感知识别能力。坦率说,这些升级仍然不会有什么惊喜感,只是多少会让iOS 26变得更好用点。
作为对照组的三星,早在2024年就推出了AI手机,并且快速完成了国行手机的AI本地化。具体来说,国行版手机中负责文本理解和生成的大模型为百度的文心一言,具体在笔记助手、录音转录摘要等场景中发挥作用;它的生成式图片编辑器则集成了美图的奇想智能模型,实现智能消除、扩图等功能;国行版的即圈即搜功能,后台数据来源于百度搜索和京东。另外,三星国行手机也有部分端侧AI功能,通话实时翻译和分屏同传翻译,都是基于三星自研本地AI模型实现的。
(图源:三星)
换言之,苹果国行AI方案,大体上抄三星的作业就行。相比海外版Apple Intelligence,国行版的核心工作就是将其中涉及到的大模型替换成国内的,三星已经做出了示范。
小雷个人认为,苹果国行AI进展缓慢,主要责任还是在苹果身上。毕竟,海外Apple Intelligence的落地过程也是一路磕磕绊绊,而且AI功能的实际体验很一般。以这样的执行力去推动国行Apple Intelligence项目,效率可想而知。
当然,不管怎么说,苹果参与的VSSFlow的到来,至少说明了苹果在AI领域不是毫无作为。如果苹果能持续在AI研究领域产出成果,那么苹果硬件AI化进程将从中获益,这才是构建未来苹果底层竞争力的关键。
热门跟贴