李飞飞学生辍学创业，发布Character-1对标HeyGen，可生成60s配音视频

猜想笔记

2024-06-21 13:51 ·北京

创始人：“我认为中国在部署生成媒体解决方案方面一直处于领先地位。”

似乎每天都会有新的AI视频模型发布。在Luma AI的Dream Machine、Runway的Gen-3 Alpha之后，这次是Hedra。

一家名为Hedra的公司，发布了一款名为Character-1的AI视频模型。话不多说，先看一下视频效果。

让“女版马斯克”说Rap：

李飞飞学生辍学创业，发布Character-1对标HeyGen，可生成60s配音视频

让戴珍珠耳环的少女说话：

李飞飞学生辍学创业，发布Character-1对标HeyGen，可生成60s配音视频

使用人工智能语音、音乐和图像重现美剧《龙之家族》的开场白（没看过这剧，不认识这角色...）

李飞飞学生辍学创业，发布Character-1对标HeyGen，可生成60s配音视频

以上视频都来自Character-1，用户可以细颗粒度地控制如何使用AI来制作“虚拟角色的动画”。这是Hedra即将推出的基础视频模型的“预览版本”，目前它只提供方形视频，而不是宽屏或竖屏，而且分辨率相对较低。

它的使用门槛相当低。基于该模型，用户只需要一段音乐——可以直接生成，或者上传已有的音乐，一张图片——可以直接生成，或者上传自己的图片。然后，只需单击生成视频并等待即可。大概一分钟左右，会生成一个一个口型同步的视频。

与其他口型同步视频工具相比，Character-1增加了更高水平的表情和动作。从公司定位来看，Hedra应该对标的是HeyGen。

目前，Character-1是免费的，可以创建任意长度的视频，但预览版只有30秒。如果H100供应充足，Hedra可以在一分钟的时间内生成90s的视频，生成富有表现力的说话、唱歌或说唱角色。

该公司正在使用它来测试模型及其审核工具的问题，然后再推出更高级的功能。

Hedra表示，Hedra使命的第一步，是建立一个每个人都可以使用的多模式创作工作室，让创作者完全控制情感对话、动作以及整个世界。

有用户表示，“用OpenAI的DALL-E生成第一帧的图片，用ChatGPT起草歌词，用Suno生成音乐，用Hedra给声音、画面注入活力”——AI创作工具已经足够强大！

李飞飞学生辍学创业，发布Character-1对标HeyGen，可生成60s配音视频

创始人是李飞飞的学生

Hedra的创始人为迈克尔·林格尔巴赫（Michael Lingelbach），是斯坦福大学的一名博士生，在斯坦福视觉与学习实验室工作，由吴佳俊和李飞飞指导。他的研究兴趣包括具身智能、计算机视觉、家庭自动化、认知神经科学、人类启发的人工智能。

“AI教母”李飞飞大家都很熟悉了，吴佳俊则是斯坦福大学计算机科学和心理学助理教授。在加入斯坦福大学之前，吴佳俊是谷歌研究院的客座研究员，与Noah Snavely一起工作。吴佳俊在麻省理工学院获得了博士学位，指导老师是Bill Freeman 和Josh Tenenbaum，在清华大学获得了本科学位，指导老师是 Zhuowen Tu。

值得一提的事，迈克尔目前正在辍学创业。

迈克尔在X上表示，自从开始Hedra的创业以来，他唯一的锻炼就是步行 5 分钟去 Safeway 喝零度可乐。

他宣称在Character-1上限48小时之后，目前已有数万名用户制作了超过10万个视频。而且他还分享了一组有趣的数字：现在有50%的用户在重新混合内容，而刚发布时这一比例仅为10%。

Hedra将服务器搭建在AWS上。迈克尔会在早上5:30起床，检查收件箱中的AWS成本警报。以下是他的心情：

在发布一天之后，Hedra表示：

H100已确保。

- 暂时将视频时长限制提升至60秒，直到能够实施付费计划，以便为人们解锁限制。

- 还允许你排队等待最多4个任务，这样即使需要等待更长时间才能使用GPU，也能够同时生成更多的内容。

Hedra想做什么？

“构建世界”。

你已经看过视频，但你没有意识到的是，Hedra所生成的不仅仅是一系列帧，而是一个四维模拟，一个现实的空间时间模型。

X大V用户 Ate-a-Pi 跟迈克尔林·格尔巴赫做了一次访谈，分享了更多创业思考。

关于视频生成模型的问题。“这些视频模型总是让我失望的是...你生成一个角色，那个角色的脸随机移动，他们的嘴唇随机移动，他们的头发时而出现时而消失。”

Hedra如何不同。“想象它是一个空间时间控制网，你在视频上应用一个信号，指导生成过程。如果你真的想跨越不自然谷，你需要共同生成角色的表情，角色如何移动，甚至他们如何与场景互动，与音频线索一致。”

复制微妙的人类行为。“当我们制作模型的第一个版本时，我首先注意到的一件事，即使在最早的日子里，你可以看到角色会在你听到音频轨道时呼吸。”

用户的创造性解释。“不是在分发中，但人们正在制作东西。”

捕捉不同动画风格的微妙之处。“我们知道动漫角色应该如何说话。所以如果我们用适当的设置运行我们的模型，你可以重现看起来像是来自节目的东西。”

自动化动画的繁琐部分。“这就是构建这些世界模型的希望所在，对吧？因为你从一个关键帧开始，然后你可以提供某种控制信号让你到达下一个关键帧。”

优先考虑用户体验的延迟。“我们的优势之一将是速度...我们知道消费者AI的一个巨大排斥因素是等待时间。”

快速生成速度的自由。“我们的模型如此之快，你必须重新滚动它。”

移除限制，激发创造力。“我们能不能让人们不受‘天哪，这将需要很长时间才能生成，而且可能看起来不好’的想法限制...但让人们进入实时操作的流程？”

视频的压力测试。“如果你看过视频模型，这是我的试金石之一，看马腿在彼此经过时。在许多生成中，腿会交换位置。”

创作者与AI之间不断发展的关系。“我不认为生成媒体的角色是一个替代工具，而是一个创造力增强工具。”

在创业钢丝上行走。“我们有我们的内部路线图，就像我们如何扩展和构建这些模型...现在我们也在尝试弄清楚我们在同时扩大团队，扩大计算能力并继续开发我们模型的更雄心勃勃的版本时，要优化当前版本的模型到什么程度来满足所有这些请求...”

艺术考虑的重要性。“通常不仅仅是模型可以处理的能力或多样性，还有你实际渲染了什么？你是如何进行色彩分级的？所有这些其他东西都进入了制作符合人们期望的内容。”

AI解锁新的创意工作流程的潜力。“我认为能够倒带并生成反事实情况是一个非常强大的创意助手。”

为了实现现实主义而关注细节。“还没有人评论的一件事...是照明和头发...如果我们将角色定位...并且有聚光灯照射在角色上，它会准确地模拟在他们的脸上，还是角色会以完全不同的方式被照亮？”

通过共享创作重新构想故事讲述。“我非常兴奋能够赋予协作故事讲述...你应该能够和你的朋友一起创造。”

民主化访问强大的故事讲述工具。“你现在可以生成角色，并且可以告诉他们做一些你以前做不到的事情...我真的很兴奋看到人们能做出什么。”

需要对某些功能的用户GUI进行研究。“我们有一个版本，你实际上可以在3D空间中定位角色，向前和向后移动它。我们计划在我们将发布的后续产品中加入这个功能。”

中国和美国之间的分离。“这些产品只是留在中国的应用程序生态系统中，并没有真正带到美国或西方市场。但是，我认为中国在部署生成媒体解决方案方面一直处于领先地位。”

在扩散模型中的妥协。“历史上，当你像控制网一样注入某些东西到扩散模型中时，通常会有权衡。通常通过限制模型，你会得到一个不太令人满意的美学结果。”

社交媒体时代的结束。“但我相信，如果你想为社交媒体制作某种内容，需要拿起相机的日子即将结束。”

完整的视频在YouTube上可以观看：https://www.youtube.com/watch?v=OM2ggSo-dfI

| |

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴