打开网易新闻 查看精彩图片

创始人:“我认为中国在部署生成媒体解决方案方面一直处于领先地位。”

似乎每天都会有新的AI视频模型发布。在Luma AI的Dream Machine、Runway的Gen-3 Alpha之后,这次是Hedra。

一家名为Hedra的公司,发布了一款名为Character-1的AI视频模型。话不多说,先看一下视频效果。

让“女版马斯克”说Rap:

 李飞飞学生辍学创业,发布Character-1对标HeyGen,可生成60s配音视频
打开网易新闻 查看更多视频
李飞飞学生辍学创业,发布Character-1对标HeyGen,可生成60s配音视频

让戴珍珠耳环的少女说话:

 李飞飞学生辍学创业,发布Character-1对标HeyGen,可生成60s配音视频
打开网易新闻 查看更多视频
李飞飞学生辍学创业,发布Character-1对标HeyGen,可生成60s配音视频

使用人工智能语音、音乐和图像重现美剧《龙之家族》的开场白(没看过这剧,不认识这角色...)

 李飞飞学生辍学创业,发布Character-1对标HeyGen,可生成60s配音视频
打开网易新闻 查看更多视频
李飞飞学生辍学创业,发布Character-1对标HeyGen,可生成60s配音视频

以上视频都来自Character-1,用户可以细颗粒度地控制如何使用AI来制作“虚拟角色的动画”。这是Hedra即将推出的基础视频模型的“预览版本”,目前它只提供方形视频,而不是宽屏或竖屏,而且分辨率相对较低。

它的使用门槛相当低。基于该模型,用户只需要一段音乐——可以直接生成,或者上传已有的音乐,一张图片——可以直接生成,或者上传自己的图片。然后,只需单击生成视频并等待即可。大概一分钟左右,会生成一个一个口型同步的视频。

打开网易新闻 查看精彩图片

与其他口型同步视频工具相比,Character-1增加了更高水平的表情和动作。从公司定位来看,Hedra应该对标的是HeyGen。

目前,Character-1是免费的,可以创建任意长度的视频,但预览版只有30秒。如果H100供应充足,Hedra可以在一分钟的时间内生成90s的视频,生成富有表现力的说话、唱歌或说唱角色。

该公司正在使用它来测试模型及其审核工具的问题,然后再推出更高级的功能。

Hedra表示,Hedra使命的第一步,是建立一个每个人都可以使用的多模式创作工作室,让创作者完全控制情感对话、动作以及整个世界。

有用户表示,“用OpenAI的DALL-E生成第一帧的图片,用ChatGPT起草歌词,用Suno生成音乐,用Hedra给声音、画面注入活力”——AI创作工具已经足够强大!

 李飞飞学生辍学创业,发布Character-1对标HeyGen,可生成60s配音视频
打开网易新闻 查看更多视频
李飞飞学生辍学创业,发布Character-1对标HeyGen,可生成60s配音视频

创始人是李飞飞的学生

Hedra的创始人为迈克尔·林格尔巴赫(Michael Lingelbach),是斯坦福大学的一名博士生,在斯坦福视觉与学习实验室工作,由吴佳俊和李飞飞指导。他的研究兴趣包括具身智能、计算机视觉、家庭自动化、认知神经科学、人类启发的人工智能。

“AI教母”李飞飞大家都很熟悉了,吴佳俊则是斯坦福大学计算机科学和心理学助理教授。在加入斯坦福大学之前,吴佳俊是谷歌研究院的客座研究员,与Noah Snavely一起工作。吴佳俊在麻省理工学院获得了博士学位,指导老师是Bill Freeman 和Josh Tenenbaum,在清华大学获得了本科学位,指导老师是 Zhuowen Tu。

值得一提的事,迈克尔目前正在辍学创业。

打开网易新闻 查看精彩图片

迈克尔在X上表示,自从开始Hedra的创业以来,他唯一的锻炼就是步行 5 分钟去 Safeway 喝零度可乐。

他宣称在Character-1上限48小时之后,目前已有数万名用户制作了超过10万个视频。而且他还分享了一组有趣的数字:现在有50%的用户在重新混合内容,而刚发布时这一比例仅为10%。

Hedra将服务器搭建在AWS上。迈克尔会在早上5:30起床,检查收件箱中的AWS成本警报。以下是他的心情:

打开网易新闻 查看精彩图片

在发布一天之后,Hedra表示:

H100已确保。

- 暂时将视频时长限制提升至60秒,直到能够实施付费计划,以便为人们解锁限制。

- 还允许你排队等待最多4个任务,这样即使需要等待更长时间才能使用GPU,也能够同时生成更多的内容。

打开网易新闻 查看精彩图片

Hedra想做什么?

“构建世界”。

你已经看过视频,但你没有意识到的是,Hedra所生成的不仅仅是一系列帧,而是一个四维模拟,一个现实的空间时间模型。

X大V用户 Ate-a-Pi 跟迈克尔林·格尔巴赫做了一次访谈,分享了更多创业思考。

  • 关于视频生成模型的问题。“这些视频模型总是让我失望的是...你生成一个角色,那个角色的脸随机移动,他们的嘴唇随机移动,他们的头发时而出现时而消失。”

  • Hedra如何不同。“想象它是一个空间时间控制网,你在视频上应用一个信号,指导生成过程。如果你真的想跨越不自然谷,你需要共同生成角色的表情,角色如何移动,甚至他们如何与场景互动,与音频线索一致。”

  • 复制微妙的人类行为。“当我们制作模型的第一个版本时,我首先注意到的一件事,即使在最早的日子里,你可以看到角色会在你听到音频轨道时呼吸。”

  • 用户的创造性解释。“不是在分发中,但人们正在制作东西。”

  • 捕捉不同动画风格的微妙之处。“我们知道动漫角色应该如何说话。所以如果我们用适当的设置运行我们的模型,你可以重现看起来像是来自节目的东西。”

  • 自动化动画的繁琐部分。“这就是构建这些世界模型的希望所在,对吧?因为你从一个关键帧开始,然后你可以提供某种控制信号让你到达下一个关键帧。”

  • 优先考虑用户体验的延迟。“我们的优势之一将是速度...我们知道消费者AI的一个巨大排斥因素是等待时间。”

  • 快速生成速度的自由。“我们的模型如此之快,你必须重新滚动它。”

  • 移除限制,激发创造力。“我们能不能让人们不受‘天哪,这将需要很长时间才能生成,而且可能看起来不好’的想法限制...但让人们进入实时操作的流程?”

  • 视频的压力测试。“如果你看过视频模型,这是我的试金石之一,看马腿在彼此经过时。在许多生成中,腿会交换位置。”

  • 创作者与AI之间不断发展的关系。“我不认为生成媒体的角色是一个替代工具,而是一个创造力增强工具。”

  • 在创业钢丝上行走。“我们有我们的内部路线图,就像我们如何扩展和构建这些模型...现在我们也在尝试弄清楚我们在同时扩大团队,扩大计算能力并继续开发我们模型的更雄心勃勃的版本时,要优化当前版本的模型到什么程度来满足所有这些请求...”

  • 艺术考虑的重要性。“通常不仅仅是模型可以处理的能力或多样性,还有你实际渲染了什么?你是如何进行色彩分级的?所有这些其他东西都进入了制作符合人们期望的内容。”

  • AI解锁新的创意工作流程的潜力。“我认为能够倒带并生成反事实情况是一个非常强大的创意助手。”

  • 为了实现现实主义而关注细节。“还没有人评论的一件事...是照明和头发...如果我们将角色定位...并且有聚光灯照射在角色上,它会准确地模拟在他们的脸上,还是角色会以完全不同的方式被照亮?”

  • 通过共享创作重新构想故事讲述。“我非常兴奋能够赋予协作故事讲述...你应该能够和你的朋友一起创造。”

  • 民主化访问强大的故事讲述工具。“你现在可以生成角色,并且可以告诉他们做一些你以前做不到的事情...我真的很兴奋看到人们能做出什么。”

  • 需要对某些功能的用户GUI进行研究。“我们有一个版本,你实际上可以在3D空间中定位角色,向前和向后移动它。我们计划在我们将发布的后续产品中加入这个功能。”

  • 中国和美国之间的分离。“这些产品只是留在中国的应用程序生态系统中,并没有真正带到美国或西方市场。但是,我认为中国在部署生成媒体解决方案方面一直处于领先地位。”

  • 在扩散模型中的妥协。“历史上,当你像控制网一样注入某些东西到扩散模型中时,通常会有权衡。通常通过限制模型,你会得到一个不太令人满意的美学结果。”

  • 社交媒体时代的结束。“但我相信,如果你想为社交媒体制作某种内容,需要拿起相机的日子即将结束。”

完整的视频在YouTube上可以观看:https://www.youtube.com/watch?v=OM2ggSo-dfI

| |