这是苍何的第 533 篇原创!

大家好,我是苍何。

今天,我的 AI 视频团队「正式入职腾讯了」

事情是这样的,我一直觉得做短视频是件反人类的事。

找热点、想选题、写脚本、做分镜、剪辑、加字幕、发平台......

一个人全干完,基本等于下班后再上一次班。

打开网易新闻 查看精彩图片

后来我换了个思路:既然人类团队能流水线协作,AI 为什么不能?

于是我搭了 2 个 AI 视频团队,一个负责「拆解爆款视频」,一个负责「自动生产视频」

每个团队都有几个不同的专业 Agent 负责执行任务。

多 Agent 协同的逻辑和之前跨境电商团队的搭建方法一致。

爆款视频拆解团队可以直接拆解爆款视频,并生成拆解报告,把景别、运镜、剪辑节奏、仿拍建议统统都给准备好。

我随便跑了个例子,你可以看看他的效果。

打开网易新闻 查看精彩图片

自动生产视频能自动搜索热点 → 自动筛选选题 → 自动写脚本 → 自动设计分镜 → 自动生成配音 → 自动渲染视频 → 自动加字幕 → 自动发布平台。

打开网易新闻 查看精彩图片

腾讯的朋友试用过我的内测版本后,觉得效果有点炫,问我能不能把这 2 个团队做成人人都可用的 AI 专家。

打开网易新闻 查看精彩图片

我答应了。

现在,我的 2 个 AI 视频团队已经上架到腾讯的 WorkBuddy 了,你可以直接体验。

打开网易新闻 查看精彩图片

你现在打开 WorkBuddy,在专家团那里搜这两个就是我的 AI 团队。

你现在只要在 WorkBuddy PC 端点一下召唤,就能使用了,专家团会调用多个专家协同进行任务。

打开网易新闻 查看精彩图片

当然也可以直接在小程序体验:

打开网易新闻 查看精彩图片

我给"视频生成团队"配了 4 个专业的 Agent,分别是视频生成团队主理人凌导、信息采集员灵阅、内容策划师灵枢、视频制作师灵映。

打开网易新闻 查看精彩图片

召唤成功后,你只需要输入一句话:

帮我做一期视频,主题是[AI周报],时长46秒

然后就不用管了。

后面发生的事情是这样的:

视频如下:

整个流程里,我只做了两件事:输入一个主题,等视频生成。

剩下的,全由 Agent 团队自动协作完成。

以前我们和 AI 的关系,是「一对一聊天」。

现在是一句话,召唤一个团队。

它有团长、有分工、有协作,是一个真正的多 Agent 团队。团长拆任务,团员并行干活,最后整合交付。

像一个真正的项目组在帮你干活。

打开网易新闻 查看精彩图片

而驱动这条视频流水线的,就是我搭的第一个团队。

这个团队基于 HyperFrames 搭建,是一个自动采集+生产+发布的 Agent 团队。

HyperFrames 是 HeyGen 开源的视频渲染框架,核心思路是写 HTML 就能渲染视频,天然为 Agent 设计。它有 CLI 工具链、TTS/字幕/去背景等媒体处理能力、50+ 现成的视频组件模板。
打开网易新闻 查看精彩图片

团队里有四个成员:视频生成团队主理人凌导、信息采集员灵阅、内容策划师灵枢、视频制作师灵映。

打开网易新闻 查看精彩图片

我输入一句需求,后面已经不是「一个 AI 在回答」了。

灵阅去搜热点、灵枢写脚本、灵映渲染视频、发布 Agent 去发平台。团长知道什么时候该拆任务、什么时候该并行、什么时候该串行。

这才是真正的 Multi-Agent,不是轮流回答,是有明确分工的团队协作。

做视频最耗时间的其实不是剪辑,是「今天到底拍什么」。

所以我先做了信息采集 Agent。它每天自动抓 RSS、搜新闻、扫社媒、聚合 AI 热点,还会把重复内容清洗掉,最后输出一份结构化摘要。

打开网易新闻 查看精彩图片

选题有了,真正费脑子的来了:「这条视频到底怎么讲?」

内容策划师灵枢负责选题评估、脚本写作、分镜设计、旁白文案,甚至镜头节奏。

打开网易新闻 查看精彩图片

连转场建议、素材清单、BGM 节奏、字幕停顿、情绪节点这些细节,它都会一起生成。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

我最开始只是想「自动写文案」,后来发现真正耗时间的是「镜头语言」,于是干脆把「导演思维」也塞进去了。

灵映会把脚本自动转成 HTML,然后调用 HyperFrames 渲染 MP4。

系统自动完成 Azure TTS 配音、Whisper 字幕对齐、动画与转场生成、素材拼接、字幕叠加、视频渲染,最后直接输出成片。

打开网易新闻 查看精彩图片

更有意思的是,视频风格还能自动匹配。AI/科技新闻自动切深蓝科技风,知识科普变清新教育风,产品评测偏对比风,行业分析变商务数据风。

输出的效果,基本能直接发平台。

在 WorkBuddy 中,我还能在右侧看到每个 Agent 的运行流程和产物,整个过程透明可控。

打开网易新闻 查看精彩图片

最后一步我也不想手动点。

发布 Agent 会自动生成标题、自动打标签、自动上传封面,然后通过云手机发布到抖音、视频号和 B站。

让它把视频发到视频号上,几秒搞定。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

就像一个微型视频制作公司,只不过成员全是 Agent,我只负责说一句话。

光会「生成」还不够。

真正重要的是学会别人为什么能爆。

于是我又搭了第二个团队,专门负责一件事:把一条爆款视频,拆成可以直接照着复刻的「操作手册」。

打开网易新闻 查看精彩图片

输入一个视频链接,它就会自动提取视频、转录文案、分析景别运镜、剪辑节奏、色调风格,生成完整拍摄脚本拆解文档,并提供可落地的仿拍建议。

打开网易新闻 查看精彩图片

整个流程分三个阶段。最复杂的是「视频下载」,所以我做了一套「三层降级策略」:官方 API → Playwright → yt-dlp。只要有一层成功,流程就继续。

打开网易新闻 查看精彩图片

团队里的角色分工:

角色

职责

工具/技术

阿爆

团长/拆解总控

任务调度、流程编排

小凯

音频处理与转录

ffmpeg、硅基流动 ASR

小淼

视频理解与镜头裁切

火山方舟视频理解 API、ffmpeg

使用起来非常简单,输入视频链接,阿爆就会调度团队开始工作。

打开网易新闻 查看精彩图片

视频下载完成后,小凯用 ffmpeg 提取音频,把video.mp4转成audio.mp3,然后调用硅基流动 API 做语音识别,自动转录完整口播文案。

打开网易新闻 查看精彩图片

以前做这种事情,最痛苦的就是一句句听、一句句敲。现在一键搞定。

打开网易新闻 查看精彩图片

接下来是最有意思的一步:视频理解。

调用火山方舟的视频理解 API,让 AI 分析整条视频的「镜头语言」。景别、运镜、转场、剪辑节奏、色调、镜头时长,全部拆得明明白白。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

你会突然发现,那些看起来「很有感觉」的爆款视频,背后全是有规律的。

小淼还能自动裁镜头,根据时间戳把每个镜头片段单独切出来。

打开网易新闻 查看精彩图片

我还可以让两个专家团进行合作。

先拆解爆款视频,学习里面的镜头语言和节奏,然后让视频生成团队去生产新视频,发布之后继续分析数据,再反过来优化下一版内容。

一个团队负责「学习」,一个团队负责「生产」,形成闭环。

讲真的,以前想玩 Multi-Agent,你得自己研究 LangGraph、CrewAI、Agent 编排、Tool 调度、Workflow,门槛劝退了 99% 的人。

WorkBuddy 做的事情是把这些全部产品化了。

你不需要懂什么是 Agent、什么是 Tool,你只需要会说「帮我做 XXX」。

点开专家团,一句话派活,团长自动拆解分工,团员并行执行,最后整合交付。开箱即用,不需要自己搭环境、写工作流、配 API。

打开网易新闻 查看精彩图片

而且小程序也能用。通勤路上冒出一个想法,掏手机打开 WorkBuddy 小程序,一句话召唤专家团,到公司时结果已经在了。手机和电脑端对话上下文完全打通,随时切换设备继续。

目前 WorkBuddy 已经上线了 24 个专家团、160 位 AI 角色,覆盖产研、内容、增长变现、财税法务、数据、投资金融。

其实就有 2 个专家团是苍何为大家精心打造的,当然了我也会一直持续迭代。

说白了,一个人也能拥有一整家公司的专业班底。

以前「一人公司」更像一句口号,听着热血,做起来全靠硬撑。

现在我越来越觉得,AI 专家团正在把它变成现实。

你不需要什么都会,你只需要有一个 AI 团队什么都能干。

你只需要做好一件事:想清楚你要什么。

剩下的,交给团队。

如果你也想体验「一句话召唤一个团队」的感觉,去 WorkBuddy 试试专家团,说不定会打开新世界的大门。

觉得有用的话,点个赞再走呗,我们下期见~