AI 魔法：何小鹏凭此惊艳世界，企业家可以勇敢冲|ai魔法|任正非|何小鹏|口型|翻译|语音识别

文| 刘澍

很多科技创始人，可以借助AI升级个人名片，打造更亲切的海外形象，让全球领略到新一代中国企业家的风采。

使用外语出口成章，AI可以帮你。

一周前，小鹏汽车创始人何小鹏在视频号上发布了一支由AI打造的宣传片。视频里，他将全球首款AI汽车“小鹏P7+”开到了火星，呈现了一个未来的科技世界。

这不仅给自家汽车赚足了噱头，也给AI视频工具打出了广告，让业内外看到了AI创作愈发品质化。

不止于此，视频引言段，何小鹏一口流利的英文演讲更是令人赞叹。

Many people ask me，Can you describe clearly to us what the future AI car will look like and why do people say that the XPENG P7+ could be the pioneer of future AI cars？

宣传片中，何小鹏甫一登场，即用了一个超长的英文复合句子表达了视频的主题——小鹏P7+是未来AI汽车的开启者。

‍

这句话抑扬顿挫、发音标准、节奏清晰，让人怀疑，何小鹏是不是在英美长期生活过。

配合着他从容自信的神态和动作，一瞬间，一个优秀的中国企业家精英立身于前。

随后，不管是他幽默风趣地介绍产品，还是表达对AI未来的愿景都透着一股令人信服的能量。

针对何小鹏这条视频，经纬中国创始管理合伙人张颖发表了评论：

而这种流利的英文表达目前类似HeyGen这样的AI视频翻译工具可以做到。

作为在相关领域较为优秀的 AI 工具，在正常的语言翻译之外，HeyGen还可以模拟真人的口型、音色、语气，实现更真实的视频语音转译。

此前，“霉霉”泰勒·斯威夫特和川普说普通话、郭德纲飙英文的视频曾经走红网络，这两支视频疑似出自HeyGen之手。

除了HeyGen，国内外还有其他的AI工具，正在为大众提供相关服务。

比如大家熟悉的剪映，现在也可以让视频中讲中文的人一键说外语。

能预见的是，随着技术的提升，接下来的转译视频会越来越真。

这有利有弊，一方面，可以降低不同地区人群的沟通交流成本；

另一方面，需要提防不法之徒侵害社会安全，今年就曾有过社交账号“俄罗斯美女”的诈骗活动，引发了行业与公众对AI数据安全、伦理道德、法律责任的广泛关注。

△ AI生成的“俄罗斯美女”

生产工具决定生产力，并且其变革推动着社会形态的变迁‌。

尽管对于AI的使用仍有很多问题待于跟进，但是面对势不可挡之潮，优先尝试可能更利于工作与生活。

尤其是很多企业家，可以借助AI镀金个人名片，打造更亲切和高知的海外形象，让全球领略到中国企业家的风采。

以董明珠为例，“中女”崛起是近几年世界范围内的热门话题，请她用一口流利的英文，输出中国女性的独立、坚韧和气度，势必会引起一波热议。

△ 董明珠

再以任正非为例，华为公司在他的带领下，不仅在技术上取得了重大突破，还在国际市场上赢得了广泛的认可和尊重。

如果能再“说”一口流利的外语，那么世界将进一步欣赏到其个人魅力、卓越的领导力和精准的战略眼光。

△ 任正非

另外，其他想从事海外工作的国内创始人亦可使用此方法，进行个人和公司品牌包装。

对此，极客电影推荐7款AI视频语音转译工具，各位极客朋友们可以择选其中，尝试一番。

01 HeyGen

HeyGen原名“Movio”，其背后公司时云科技由Joshua Xu和Wayne Liang于2020 年11月在洛杉矶创立。所使用的模型是自研的多模态内容生成引擎“Surreal Engine”。

△ Wayne Liang（左）和 Joshua Xu（右）

在今年3月21日，HeyGen正式发布了5.0版本，当前支持40多种语言下300多种语音的自然发音，可以让用户从不同种族、年龄和姿势的 100多个AI头像中进行选择，使其以自然的口型同步进行念稿，具有非常丰富的个性化设置。

其核心在于深度融合了语音识别、语音合成、口型生成以及视频处理等多项先进技术。

以泰勒·斯威夫特说普通话为例，首先，HeyGen通过先进的语音识别技术，将霉霉的英文原声转换为文字，确保信息的准确无误；

接着，利用语音合成技术，将识别出的文字转换为地道的中文发音，发音、音色和语调在这个环节完成；

然后，采用面部捕捉和口型生成技术，实现口型匹配，同时深度分析霉霉的面部特征，生成与中文发音相对应的口型动画。

最后，将生成的中文发音和口型动画与原始视频进行融合，确保声音、口型与视频画面的同步。

02 BodyTalk

BodyTalk也是一款能够将视频中人物声音精准转换为其他语言的AI工具，由一家名为Panjaya的公司创立。

区别于HeyGen为全自研技术，BodyTalk采用的是“自研+三方”的混合型技术策略，其中，唇形同步引擎为内部研发。

目前，BodyTalk支持29种语言的翻译，可以复制说话者的原声特征，以及自动调整视频中人物的面部表情和肢体动作，使其与新语言的语音模式自然匹配。

其工作流程首先是进行音频翻译，然后是生成模仿原声说话者的新语音，接着是自动调整视频中说话者的口型和动作以匹配新的语言表达。处理一段视频的时间大抵需要几分钟。

△ BodyTalk工作流程

03 LipDub

LipDub是一款视频语音翻译和口型同步的移动APP，由2021年成立的公司Captions出品，目前支持28种语言，早些时候曾在App Store上线。

其能够准确识别视频中的语音，使用GPT-4将其翻译成其他语言，并使用“ zero-shot model(零样本模型)”算法，将翻译后的语音与视频人物的口型进行匹配，让用户在几分钟内“用外语交流”。

使用过程亦相对简单：上传一段视频、选择目标语言、获得带有新语音和口型同步的翻译视频。全程仅需要几分钟的时间。

04 LipDub AI

LipDub AI由加拿大公司MARZ开发，其与Captions 的LipDub不是一款工具。LipDub AI主要面向影视行业，为影视配音提供高质量的翻译视频。

其处理1分钟的视频片段需要的运行时间不到20分钟。

区别于其他口型配音AI，LipDub AI没有采用外部大型语言模型，而是使用自己的生成模型，该模型通过录音进行训练。

05 AI Dubbing

AI Dubbing支持多语言语音合成、声音复制、文本和音频处理技术，可以把任意一段音频或者视频快速翻译为29种语言，并且保留说话者的音色特征和情感。

使用上，访问其官网，点击生成一个新项目，上传视频并选择需要转换语种的语言。

另外，AI Dubbing官网还支持粘贴Youtube、TikTok、X（推特）、Vimeo等平台的链接。点击最下方的Create按钮，开始音频复制，完成后即可预览效果。

06 Verbalate

Verbalate由澳大利亚人Grant Davies研发，可支持30分钟的视频。

作为一款通用的视频翻译和唇语同步工具，它能够轻松地将音频/视频内容转换为多种语言，并具备语音克隆和唇语同步功能，触达全球受众，解锁新收入，并扩大视频内容制作规模。

使用上，只需上传一段音频或视频内容，并选择要翻译成的语言。软件将使用语音克隆和唇语同步技术，无缝地翻译和同步内容。

您还可以自定义音轨并导出翻译后的视频。

07 Spotify

流媒体巨头Spotify也未甘于人后，去年测试了“语音翻译（Voice Translation）”功能，可以复刻播客主播的声音，并使用一样的语气，节奏和速度，提供西班牙语，法语和德语的听力体验。

该功能是Spotify在OpenAI 的自动语音识别（ASR）系统Whisper的帮助下开发的，使用了语音转文本生成AI模型来翻译音频文件，并使用语音复制模型来匹配原始说话者的风格。

这项技术的早期测试已经在一些流行的英语播客上进行了，Spotify打算将这一功能扩展到更多的播客，甚至尝试为多语种主持人提供人工智能配音的内容。

AI 魔法：何小鹏凭此惊艳世界，企业家可以勇敢冲

热搜

热门跟贴

热搜

热门跟贴

相关推荐

AI 赋能，企业效率飞升的魔法师

外网播放过亿的视频，看到最后才知道，原来这是AI的杰作

谁也没想到，全球AI大发展，却突然发现被中国卡脖子了

a16z前合伙人重磅演讲：未来AI模型将以周为速度迭代

AI交易进入新阶段！市场聚焦AI应用！这些公司有望率先爆发！

告别碎步霸气自信，国产机器人靠AI加持，2天学会仿人行走

【人工智能】AI智能体的经典七问与案例展示：普通人应该如何构建智能体

人工智能：科学发现未来的创新者

AI机器人与类比武，场面残暴无情，一个不疼一个真疼

御剑术照进现实，男子利用算法打造“会飞的剑”

外国佬骑行爆胎，下一幕操作惊呆了，果然AI取代不了人类大脑

AI：内容疑似人类生成

家里若是出现这样的东西，世界末日要来临，现在AI无所不能

首批骁龙8至尊版机型发布后，AI生态迎来新变局

华为鸿蒙智家：AI重塑家居交互，开启全空间无感控制新时代

人工智能，游戏行业的变革之力

纯血鸿蒙，再造一个操作系统时代

三招干掉BBA，2024年最凶残的男人

张一鸣成首富，互联网下一波造富潮在哪里？

华为员工批任正非：老板您要么别来，要么微服私访，不然挺扰民的