文| 刘澍
很多科技创始人,可以借助AI升级个人名片,打造更亲切的海外形象,让全球领略到新一代中国企业家的风采。
使用外语出口成章,AI可以帮你。
一周前,小鹏汽车创始人何小鹏在视频号上发布了一支由AI打造的宣传片。视频里,他将全球首款AI汽车“小鹏P7+”开到了火星,呈现了一个未来的科技世界。
这不仅给自家汽车赚足了噱头,也给AI视频工具打出了广告,让业内外看到了AI创作愈发品质化。
不止于此,视频引言段,何小鹏一口流利的英文演讲更是令人赞叹。
Many people ask me,Can you describe clearly to us what the future AI car will look like and why do people say that the XPENG P7+ could be the pioneer of future AI cars?
宣传片中,何小鹏甫一登场,即用了一个超长的英文复合句子表达了视频的主题——小鹏P7+是未来AI汽车的开启者。
这句话抑扬顿挫、发音标准、节奏清晰,让人怀疑,何小鹏是不是在英美长期生活过。
配合着他从容自信的神态和动作,一瞬间,一个优秀的中国企业家精英立身于前。
随后,不管是他幽默风趣地介绍产品,还是表达对AI未来的愿景都透着一股令人信服的能量。
针对何小鹏这条视频,经纬中国创始管理合伙人张颖发表了评论:
而这种流利的英文表达目前类似HeyGen这样的AI视频翻译工具可以做到。
作为在相关领域较为优秀的 AI 工具,在正常的语言翻译之外,HeyGen还可以模拟真人的口型、音色、语气,实现更真实的视频语音转译。
此前,“霉霉”泰勒·斯威夫特和川普说普通话、郭德纲飙英文的视频曾经走红网络,这两支视频疑似出自HeyGen之手。
除了HeyGen,国内外还有其他的AI工具,正在为大众提供相关服务。
比如大家熟悉的剪映,现在也可以让视频中讲中文的人一键说外语。
能预见的是,随着技术的提升,接下来的转译视频会越来越真。
这有利有弊,一方面,可以降低不同地区人群的沟通交流成本;
另一方面,需要提防不法之徒侵害社会安全,今年就曾有过社交账号“俄罗斯美女”的诈骗活动,引发了行业与公众对AI数据安全、伦理道德、法律责任的广泛关注。
△ AI生成的“俄罗斯美女”
生产工具决定生产力,并且其变革推动着社会形态的变迁。
尽管对于AI的使用仍有很多问题待于跟进,但是面对势不可挡之潮,优先尝试可能更利于工作与生活。
尤其是很多企业家,可以借助AI镀金个人名片,打造更亲切和高知的海外形象,让全球领略到中国企业家的风采。
以董明珠为例,“中女”崛起是近几年世界范围内的热门话题,请她用一口流利的英文,输出中国女性的独立、坚韧和气度,势必会引起一波热议。
△ 董明珠
再以任正非为例,华为公司在他的带领下,不仅在技术上取得了重大突破,还在国际市场上赢得了广泛的认可和尊重。
如果能再“说”一口流利的外语,那么世界将进一步欣赏到其个人魅力、卓越的领导力和精准的战略眼光。
△ 任正非
另外,其他想从事海外工作的国内创始人亦可使用此方法,进行个人和公司品牌包装。
对此,极客电影推荐7款AI视频语音转译工具,各位极客朋友们可以择选其中,尝试一番。
01 HeyGen
HeyGen原名“Movio”,其背后公司时云科技由Joshua Xu和Wayne Liang于2020 年11月在洛杉矶创立。所使用的模型是自研的多模态内容生成引擎“Surreal Engine”。
△ Wayne Liang(左)和 Joshua Xu(右)
在今年3月21日,HeyGen正式发布了5.0版本,当前支持40多种语言下300多种语音的自然发音,可以让用户从不同种族、年龄和姿势的 100多个AI头像中进行选择,使其以自然的口型同步进行念稿,具有非常丰富的个性化设置。
其核心在于深度融合了语音识别、语音合成、口型生成以及视频处理等多项先进技术。
以泰勒·斯威夫特说普通话为例,首先,HeyGen通过先进的语音识别技术,将霉霉的英文原声转换为文字,确保信息的准确无误;
接着,利用语音合成技术,将识别出的文字转换为地道的中文发音,发音、音色和语调在这个环节完成;
然后,采用面部捕捉和口型生成技术,实现口型匹配,同时深度分析霉霉的面部特征,生成与中文发音相对应的口型动画。
最后,将生成的中文发音和口型动画与原始视频进行融合,确保声音、口型与视频画面的同步。
02 BodyTalk
BodyTalk也是一款能够将视频中人物声音精准转换为其他语言的AI工具,由一家名为Panjaya的公司创立。
区别于HeyGen为全自研技术,BodyTalk采用的是“自研+三方”的混合型技术策略,其中,唇形同步引擎为内部研发。
目前,BodyTalk支持29种语言的翻译,可以复制说话者的原声特征,以及自动调整视频中人物的面部表情和肢体动作,使其与新语言的语音模式自然匹配。
其工作流程首先是进行音频翻译,然后是生成模仿原声说话者的新语音,接着是自动调整视频中说话者的口型和动作以匹配新的语言表达。处理一段视频的时间大抵需要几分钟。
△ BodyTalk工作流程
03 LipDub
LipDub是一款视频语音翻译和口型同步的移动APP,由2021年成立的公司Captions出品,目前支持28种语言,早些时候曾在App Store上线。
其能够准确识别视频中的语音,使用GPT-4将其翻译成其他语言,并使用“ zero-shot model(零样本模型)”算法,将翻译后的语音与视频人物的口型进行匹配,让用户在几分钟内“用外语交流”。
使用过程亦相对简单:上传一段视频、选择目标语言、获得带有新语音和口型同步的翻译视频。全程仅需要几分钟的时间。
04 LipDub AI
LipDub AI由加拿大公司MARZ开发,其与Captions 的LipDub不是一款工具。LipDub AI主要面向影视行业,为影视配音提供高质量的翻译视频。
其处理1分钟的视频片段需要的运行时间不到20分钟。
区别于其他口型配音AI,LipDub AI没有采用外部大型语言模型,而是使用自己的生成模型,该模型通过录音进行训练。
05 AI Dubbing
AI Dubbing支持多语言语音合成、声音复制、文本和音频处理技术,可以把任意一段音频或者视频快速翻译为29种语言,并且保留说话者的音色特征和情感。
使用上,访问其官网,点击生成一个新项目,上传视频并选择需要转换语种的语言。
另外,AI Dubbing官网还支持粘贴Youtube、TikTok、X(推特)、Vimeo等平台的链接。点击最下方的Create按钮,开始音频复制,完成后即可预览效果。
06 Verbalate
Verbalate由澳大利亚人Grant Davies研发,可支持30分钟的视频。
作为一款通用的视频翻译和唇语同步工具,它能够轻松地将音频/视频内容转换为多种语言,并具备语音克隆和唇语同步功能,触达全球受众,解锁新收入,并扩大视频内容制作规模。
使用上,只需上传一段音频或视频内容,并选择要翻译成的语言。软件将使用语音克隆和唇语同步技术,无缝地翻译和同步内容。
您还可以自定义音轨并导出翻译后的视频。
07 Spotify
流媒体巨头Spotify也未甘于人后,去年测试了“语音翻译(Voice Translation)”功能,可以复刻播客主播的声音,并使用一样的语气,节奏和速度,提供西班牙语,法语和德语的听力体验。
该功能是Spotify在OpenAI 的自动语音识别 (ASR) 系统Whisper的帮助下开发的,使用了语音转文本生成AI模型来翻译音频文件,并使用语音复制模型来匹配原始说话者的风格。
这项技术的早期测试已经在一些流行的英语播客上进行了,Spotify打算将这一功能扩展到更多的播客,甚至尝试为多语种主持人提供人工智能配音的内容。
热门跟贴