AI视频初创「爱诗科技」获近3亿元A+轮融资，全球已超1200万用户｜36氪独家|a+轮|ai视频|清晰度|爱诗科技|融资

文｜邓咏仪

编辑｜苏建勋

《智能涌现》独家获悉，爱诗科技近期正式完成A2-A4轮融资，总额近3亿元人民币。投资方包括蚂蚁集团、北京市人工智能产业投资基金、国科投资及光源资本。

2024年进入尾声，也正逢OpenAI旗下的Sora快接近一周年，中国的视频生成创业公司们怎么样了？

面对《智能涌现》的询问，爱诗科技创始人王长虎从容地说：“至少之前说过的目标，我们都做到了。”

在2024年初Sora预览版发布后，王长虎曾经判断：有信心在3-6个月之内，可以追赶上Sora目前的水平。

在12月，Sora终于“姗姗来迟”，正式对外公开上线。尽管Sora在产品、交互层面有不少功能上的创新，但市场普遍的评论是，Sora真正呈现的效果并没有预期的这般惊艳。

比如，在11月和12月发布的SuperClue等中文测试榜单中，爱诗科技的核心产品PixVerse已经位居文生视频榜单的第一位。在全球市场中AI视频生成应用中，PixVerse也是经常被列入第一梯队的产品。

创业近两年，爱诗科技也交出了一份充实的答卷：核心AI视频生成产品PixVerse，在2024年1月刚上线时，PixVerse在上线后首月就达成了超过120万的访问量。彼时硅谷的明星AI视频生成初创Pika，上线后3个月的月访问量在200万左右。

一年过去，这个数字又刷新了：PixVerse的全球用户数已超1200万，月活跃用户数近600万。并且，团队如今已经实现规模化收入。

产品的快速增长，来源于底层视频模型的许多更新。在2024年，爱诗科技就历经了三次大的迭代，分别是1月的视频模型V1，而7月的V2模型，也是国内第一批发布的，对标Sora等DiT架构路线的视频大模型。在清晰度、一致性、物理规律、指令跟随层面，PixVerse都有了不少的提升。

再之后，10月底上线的最新V3模型后，PixVerse甚至还在社交媒体中创造了一个热点——在TikTok、抖音、小红书等平台上爆火的“毒液”特效，总曝光量过亿。多位素人博主用”毒液“的特效拍摄视频，获得超百万的播放量。

△来源：PixVerse

“毒液”特效之所以能够爆火，王长虎表示，这也和PixVerse的底模能力有密切关系。2024年3月，爱诗科技就推出了全球首个Character2Video（人物一致性）模型，并不断迭代解决方案。通过在扩散模型（DiT）生成过程中对ID进行精准约束，视频中的人物形象能够和背景保持高度一致，也提升了用户体验。

过去一年中，生成式视频领域的难点，仍然集中在一致性、物理规律等等，尚有许多技术难点需要突破。王长虎坦承，当前行业的技术路线也还没有收敛。

事实上，行业内对AI视频的认知和期待，已经更为理性。

比如，2024年初Sora发布时，可以生成长达1分钟的视频，这引发了大众对视频生成市场的期待。但值得注意的是，Sora年初展示的是多次生成后的Demo，真正将视频长度拉长后，生成视频的一致性、清晰度等都可能不甚让人满意。面对不满意的结果时，用户点击“重新生成”的概率过高，反而大大影响了用户体验。

因此，当下AI视频领域更多的努力方向，从比拼时长，转移到了视频内容一致性、清晰度、运动幅度等更多维度。

“做产品要看用户真正需求在哪。我们专门去随机去电影网站上去选，去看电影里每个镜头的长度，最后发现呀，其实真正电影里的镜头也基本就是十秒左右。”王长虎表示，为了保证用户的体验和可用性，单纯卷视频时长意义不大。

△来源：PixVerse

在生成时长和清晰度上，PixVerse目前支持生成10秒以内的高质量生成，清晰度最高可以支持4K，已经可以进入到商用级别。对比去年，行业普遍能够做到的高质量AI视频，停留在5秒内，而且清晰度普遍在1080p以下。

PixVerse还在迅速更新产品及模型——11月，PixVerse刚刚发布的新功能是，用户上传视频，通过Prompt或选择特效，就可以选择进行视频延长生成。而在12月，PixVerse的下一个模型V3.5版本已进入内测阶段，生成视频速度可缩短至30s以内，提示词响应及运动控制能力显著提升，即将正式上线。

事实上，如今的AI视频生成领域已经有了更清晰的分野。比起Pika、Runway等AI视频初创都以To B为主要方向，而爱诗科技从创立开始，就一直将主要方向放在了更广大的C端市场。12月，PixVerse也刚刚上线海外版的App版本。

王长虎对To C市场的信心，来源于他曾经早期在字节，从0到1搭建了视觉技术团队和视觉算法平台和业务中台，并支撑了抖音和TikTok等产品的高速发展。他表示，爱诗科技的目标，一直都是让每天活跃在短视频平台的数十亿的普通消费者，能零门槛地创作想要的视频。

这种趋势，已经有迹象可以印证。“过去一年，我们经历的比较重要的变化，就是用户从专业创作者，扩散到C端的用户群体。”王长虎说。这促使爱诗科技迅速在产品功能上，不断降低门槛——在PixVerses中，已经内置了数十种特效模版，用户只需输入一张图，就可以生成视频，无需用户自己输入或者思考如何写Prompt。

△来源：PixVerse

进入2024年，初创公司面临的另一个重要问题在于，如何应对巨头的进攻包抄——此时的AI视频生成领域，已经如雨后春笋般，有众多玩家快速下场，巨头侧的快手、字节、阿里、腾讯，均在2024年推出了相应的AI视频模型。

对此，王长虎心态是乐观的。他认为，尽管发展迅速，大模当前视频生成赛道还处在GPT-2到GPT-3的阶段，这一阶段尚有许多技术难点需要突破，这会是初创公司的机会。在此前，爱诗科技的核心团队，也用少于竞争对手十倍以上的体量，攻克了不少业界的技术难题。

在产品侧，视频生成领域也会是一个离用户“更近”的领域。不像LLM（大语言模型）的迭代是飞跃式的，模型到达某一个阶段忽然有阶梯式的性能提升，吞噬掉不少应用；但视频模型的技术演进会更平缓——每一个技术迭代更新，都会带来更直观的视频产品体验提升，这也有助于初创公司更早拿到市场反馈，快速建立起商业闭环。

当前，曾经被关注甚多的训练、推理成本，也正在经历迅速的下降。王长虎透露，如今爱诗的训练成本，实际上是很多同行的三分之一，甚至十分之一，他预测在未来的一年内，成本会下降得更快。在明年，爱诗科技也会在商业化层面提速，目标是获得规模化的增长。

封面来源｜企业官方‍‍

欢迎交流

本文来自微信公众号“智能涌现”，作者：邓咏仪，36氪经授权发布。