打开网易新闻 查看精彩图片

在AI应用领域,HeyGen是一家不容忽视的公司。

这家公司的特殊之处在于,正当所有人还在探索AI落地方向时,HeyGen迅速找到了PMF,并取得了可观的商业化成绩。

今年6月,HeyGen的创始人徐卓表示,过去一年,公司年化经常性收入从100万美元增长至逾3500万美元,付费客户超过4万名。

回顾HeyGen的发展历史,我们或许能从中获得一些AI应用落地不错的启示。

HeyGen如何找到PMF?

HeyGen一经推出,就成为Product Hunt上AI和营销类别的月度最佳产品。

HeyGen的功能很简单,用户可以快速创建2D数字人Avatar(Avatar指用户在虚拟世界中的虚拟化身),生成高逼真度的数字人语音视频,定制化人物形象、工作服装等,还能通过声音克隆功能生成使用自己语音的AI视频。

打开网易新闻 查看精彩图片

从价格上来看,HeyGen提供了两种灵活的付费模式:24美元/月及120美元/月,以满足不同用户群体的需求。对于有特殊定制需求的用户,HeyGen还提供了专门的定价方案。

但就是这样一款看上去平平无奇的产品,却取得了极佳的商业化成果。在推出后的7个月内,就实现了100万美元的ARR,同时保持了50%的月增长率。截至2023年4月,HeyGen已实现盈利,ARR涨到1000万美元。

今年6月,HeyGen的创始人徐卓表示,公司已经获得4万多名付费客户,过去一年,公司年化经常性收入从100万美元增长至逾3500万美元,并且自2023年第二季度以来一直保持盈利。

突出的商业化成绩,也帮助HeyGen拿到了可观的融资。

打开网易新闻 查看精彩图片

今年6月,HeyGen在官网宣布完成A轮6000 万美元融资,本轮融资由硅谷顶级风投Benchmark Captail领投,参投机构还包括Conviction、Thrive Capital 以及Bond Capital 等。其投后5亿美元的估值,相比上一轮的7500万美元的估值高出了6倍多。

算上这轮融资,HeyGen已至少累计筹到1.2亿美元。

回顾HeyGen的发展历史,大致可以归为AI相机、AI数字人、多语言视频创作三个阶段:

打开网易新闻 查看精彩图片

HeyGen公司是在2020年12月创立,当时AIGC的概念距离真正落地还有很长时间,但公司创始人徐卓坚信AI可以生成高质量的内容。

这源于其在Snap的工作经历。在Snap工作的期间,徐卓一直在从事人工智能相机的工作,即利用大量的AI技术来增强相机体验。从那时开始,徐卓就坚信,AI可以创建内容,AI可以成为新的相机

在这一理念下,早期的HeyGen有了以下定位:

定位:打造每个人的专属AI数字人;

产品价值:让用户能够以更低的成本完成高质量的内容创作;

实现方式:用AI取代视频制作中的拍摄环节,将视频制作从传统的拍摄转变为AI生成。

在早期,HeyGen没有急着攻克产品,而是先校验市场。2022年,HeyGen在自由职业者协作平台Fiverr上提供AI生成的视频,以低于市场的价格和极快的交付时间吸引了客户,成功打入代言人视频服务市场,HeyGen也是从那个时候明确了AI数字人产品。

打开网易新闻 查看精彩图片

▲麦当劳6月的活动,基于HeyGen的技术,用户可以用奶奶的形象录制AI视频,并在视频中使用奶奶的母语

明确AI数字人产品定位后,HeyGen接着尝试向多语言视频创作与翻译工具拓展。2023年9月,HeyGen推出了视频翻译功能,这一功能使视频在卡点、音色、嘴型等方面都能实现较好的匹配。也就是这一项炸裂更新,让HeyGen在社交媒体上引起了更大范围的关注。

至此,HeyGen的产品逐渐打磨成型,并获得了市场的认可。

/ 02 /

不死磕视频模型,只做“最后一公里”

与AI视频领域的很多公司不同,HeyGen没有自研模型。公司创始人在访谈中透露过,公司只做整个视频技术栈,包括Avatar创建、视频渲染和视觉生成。

HeyGen创建AI视频时,技术栈将一个任务拆分成不同的部分,利用现有的视频模型解决主要任务(画面),然后逐个解决其他部分(人声、音乐等),最后用编排引擎把它们组装成最终视频。

为了完成文本、语音、视频的部分,他们分别用到了三个模型,至于视频模型,他们并没有透露。

打开网易新闻 查看精彩图片

这一模式下,每一个部分都分配给专用工具去做,保证了每个部分的稳定性和质量。也就是说,HeyGen只需要把生成的所有素材组合起来,用AI编辑来生成最终的视频版本。

在这个工作流中,对口型是完成AI视频的“最后一公里”。凭借口型和动作等自然的动态,静态图就可以变成高质量、长时间的视频,并能花费更少的成本。“赫本讲话”、“高启强化身罗翔普法”等视频的制作都只需要动动手指,效果好又简单。

不过,要想真正地实现“最后一公里”,数字人技术需要实现全身肢体动作,徐卓深知这一点。目前HeyGen还只能在预先录制的视频上,对角色的唇形进行局部修改,视频来源全部都是录制好的影像,动作重复度较高。

打通了全身肢体动作这一关,数字人才能开拓更多应用场景。比如投资回报率更高的营销内容,需要更好的动态效果,展现的互动性和真实性,吸引人付费,就要用到全身视频。

徐卓在访谈中解释说,这一技术突破并不容易,需要配合AI视频的肢体动作技术,同时训练语音模型和视频模型,在模型底层建立连接。

好消息是,全身肢体动作生成技术有了新的进展。最近爆火的TANGO+Wav2Lip项目,在唇形技术上加了肢体动作功能,就能把语音与手势动作结合在一起。

 一年达成ARR3500万美元,HeyGen如何成为最赚钱AIGC公司?
打开网易新闻 查看更多视频
一年达成ARR3500万美元,HeyGen如何成为最赚钱AIGC公司?

总的来说,作为一种生产力工具,AI更适用于那些由于高成本和繁琐流程而被忽视的市场。长远来看,AI变革的终极目标是为大众提供专家级和个性化的、且更重要的是普惠和可持续的服务,或许这才是AI应用真正的好蓝海。

文/朗朗

PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。