小云雀:字节推视频Agent|体验&背后逻辑
打开网易新闻 查看更多视频
小云雀:字节推视频Agent|体验&背后逻辑

上面的视频,是小云雀一键直出,几分钟的事儿

这是剪映旗下的创作Agent

下面再放点案例

皆可带货:曹操带货地瓜烧

 小云雀:字节推视频Agent|体验&背后逻辑
打开网易新闻 查看更多视频
小云雀:字节推视频Agent|体验&背后逻辑

数字人口播:希望大家早点睡

 小云雀:字节推视频Agent|体验&背后逻辑
打开网易新闻 查看更多视频
小云雀:字节推视频Agent|体验&背后逻辑

趣味课堂:给小学生讲讲水循环

 小云雀:字节推视频Agent|体验&背后逻辑
打开网易新闻 查看更多视频
小云雀:字节推视频Agent|体验&背后逻辑

人所要做的,就是:给出一句话需求,剩下的交给 AI

前不久的 WAIC 期间,我跟相关朋友聊了聊,发现一些挺有趣的行业信息

  • • AI 视频工具的核心场景,已从营销转向故事创作(占比超 70%)

  • • 用户大都不关心技术,关心质量、速度以及便捷程度

  • • 视频制作从「割裂的流水线」走向「统一的代码决策」

  • • 垂类场景(商家、本地生活、自媒体)将是下一轮的增长点

  • • 制作能力本身不再稀缺,更要拼的是想法

本文由此展开,来讲讲:
AI 视频的现状、背后的技术/市场逻辑、以及未来走向

谁在用「AI 视频工具」?

过去很长一段时间,「AI 视频工具」的用户画像都非常单一:搞营销的

有个叫 HeyGen 的出海产品,2022 年底上线,很快爆火

它主打的场景,是品牌营销:提供预设数字人、标准化的口播模板

靠这种清晰定位, HeyGen 在不到两年,就做到了 3500 万美元年营收

站在现在的视角,不难发现其定位独到:

2022-2023 年期间,AI 生视频还是相当早期:效果惨不忍睹,画风崩坏,成功率感人

那时候拿得出手的东西,无非是“文字转语音(TTS)+修正口型”,也就是营销口播这一条路还能勉强跑通,其他场景根本没法用

另一角度,当时视频生成的成本高到离谱

只有高 ROI 的营销场景,能养活团队,其他场景玩法连试错的机会都没有,更别提规模化推广了

24 年前后,AI 视频赛道的开始加速

先是 pika 爆红,靠着独特的短视频风格,带来了一阵刷屏(但成功率依然感人)

 小云雀:字节推视频Agent|体验&背后逻辑
打开网易新闻 查看更多视频
小云雀:字节推视频Agent|体验&背后逻辑

紧接着 Sora、MiniMax(海螺)相继出现:AI 从生成场景,变得理解世界

 小云雀:字节推视频Agent|体验&背后逻辑
打开网易新闻 查看更多视频
小云雀:字节推视频Agent|体验&背后逻辑

而最近,谷歌新推出的 VEO,让普通人动动手指,就能做出难分真假视频片段

 小云雀:字节推视频Agent|体验&背后逻辑
打开网易新闻 查看更多视频
小云雀:字节推视频Agent|体验&背后逻辑

技术门槛迅速降低、成本大幅下降 AI 视频创作领域也开始转变:从品牌营销,溢出到个人表达

对于此时,「AI 视频工具」的用户构成,已经完全不一样了

营销相关的需求迅速缩减,各种奇葩短剧、历史人物科普、自媒体故事占到了 70% 以上

换句话说,AI 生视频这事儿,已经从「企业营销」变成了个人用户的「表达工具」

这也很好解释,为什么最近 B 站、抖音、快手上涌现出越来越多的 AI 生成内容

 小云雀:字节推视频Agent|体验&背后逻辑
打开网易新闻 查看更多视频
小云雀:字节推视频Agent|体验&背后逻辑

在 ins 上 10 万点赞的猫猫跳水

这些内容的背后,都可能是一个完全不懂剪辑的人,靠 AI 做的

小云雀正是看准了这个趋势,尝试让普通人也能上手视频制作

通过「一句话生成视频」的极简交互,去降低普通用户制作 AI 视频的门槛——不用学习剪辑、不用理解专业参数,表达即内容

背后的技术演进

在过去的 3 年里,AI 视频制作的方法,也有不少改变

最早,是纯「人工流水线」

ChatGPT 写脚本,人力拆镜头、Midjourney 出图、用图片生成视频、ElevenLabs 配音、修口型,最后剪辑拼接

现在看来,这种做法相当低效:工具各自独立,完全靠人力来凑

后来,有了 ComfyUI 这样的节点工具

用户可以自己拉线,把各种大模型和工具串联起来,实现一定自动化

但说实话,这复杂度,普通人根本弄不了

最近,Agent 模式开始流行

只要写一句 Prompt,AI 就会自动规划接下来的一切:

  • • 应该用什么剧情?

  • • 应该生成什么画面?

  • • 需要怎样的配音和背景音乐?

这些判断,都会放进一段简单的 JSON 文件里,由系统一次性完成

这段 JSON 可能是这样的

{     "task":"生成一段黑洞科普视频",     "script":{         "intro":"黑洞是如何形成的?",         "content":[             {"scene":"宇宙空间背景","animation":"星体坍缩形成黑洞"},             {"scene":"黑洞吸积盘特写","animation":"物质被黑洞吞噬过程展示"}         ],         "voiceover":{"type":"专业男声","tone":"严谨、缓慢"}     },     "video_style":"纪录片风格",     "music":"史诗感背景音乐",     "tools":{         "video_generation":"Sora v1.5",         "tts":"ElevenLabs",         "background_music":"Epidemic Sound"     } }

顺道着,Agent 也解决了工具太多、更新太快的问题

用户不需要关心背后的技术,也不需要思考顺序,Agent 会自动掉一切,并交付内容

更多用途的畅想

我最近在开店,分享自己的小观察:

大多数商家的图片,都比较粗糙,影响转化

如果能用 AI 工具自动帮他们生成各种尺寸的动态视频,比如热气腾腾的拉面、滋滋作响的烤肉、缓缓倒下的奶茶……可能会极大提升转化

这或许是个巨大却被忽视的市场机会:

大众点评、美团、饿了么上有几百、上千万个商家,这类功能挺有用的

这里只是我的畅想:普通商家不需要懂技术,就能通过小云雀一类的工具,快速生成适合外卖平台、社交媒体的营销视频。所要做的,只要描述"做一个热气腾腾的拉面"或"展示新品奶茶的诱人"

用这种方式,满足本地生活商家"想用视频但不会做"的诉求

最后

慢慢的,视频制作在从「技能」降维成「想法」

稀缺的不再是制作能力,而是独特视角、圈层洞察和叙事想象力

创作的竞争从「谁能做」变成了「谁该做」

而这,才刚刚开始