我的 AI 视频团队入职腾讯了！

苍何

2026-05-13 18:11 ·湖北

这是苍何的第 533 篇原创！

大家好，我是苍何。

今天，我的 AI 视频团队「正式入职腾讯了」。

事情是这样的，我一直觉得做短视频是件反人类的事。

找热点、想选题、写脚本、做分镜、剪辑、加字幕、发平台......

一个人全干完，基本等于下班后再上一次班。

后来我换了个思路：既然人类团队能流水线协作，AI 为什么不能？

于是我搭了 2 个 AI 视频团队，一个负责「拆解爆款视频」，一个负责「自动生产视频」。

每个团队都有几个不同的专业 Agent 负责执行任务。

多 Agent 协同的逻辑和之前跨境电商团队的搭建方法一致。

爆款视频拆解团队可以直接拆解爆款视频，并生成拆解报告，把景别、运镜、剪辑节奏、仿拍建议统统都给准备好。

我随便跑了个例子，你可以看看他的效果。

自动生产视频能自动搜索热点 → 自动筛选选题 → 自动写脚本 → 自动设计分镜 → 自动生成配音 → 自动渲染视频 → 自动加字幕 → 自动发布平台。

腾讯的朋友试用过我的内测版本后，觉得效果有点炫，问我能不能把这 2 个团队做成人人都可用的 AI 专家。

我答应了。

现在，我的 2 个 AI 视频团队已经上架到腾讯的 WorkBuddy 了，你可以直接体验。

你现在打开 WorkBuddy，在专家团那里搜这两个就是我的 AI 团队。

你现在只要在 WorkBuddy PC 端点一下召唤，就能使用了，专家团会调用多个专家协同进行任务。

当然也可以直接在小程序体验：

我给"视频生成团队"配了 4 个专业的 Agent，分别是视频生成团队主理人凌导、信息采集员灵阅、内容策划师灵枢、视频制作师灵映。

召唤成功后，你只需要输入一句话：

帮我做一期视频，主题是[AI周报]，时长46秒

然后就不用管了。

后面发生的事情是这样的：

视频如下：

整个流程里，我只做了两件事：输入一个主题，等视频生成。

剩下的，全由 Agent 团队自动协作完成。

以前我们和 AI 的关系，是「一对一聊天」。

现在是一句话，召唤一个团队。

它有团长、有分工、有协作，是一个真正的多 Agent 团队。团长拆任务，团员并行干活，最后整合交付。

像一个真正的项目组在帮你干活。

而驱动这条视频流水线的，就是我搭的第一个团队。

这个团队基于 HyperFrames 搭建，是一个自动采集+生产+发布的 Agent 团队。

HyperFrames 是 HeyGen 开源的视频渲染框架，核心思路是写 HTML 就能渲染视频，天然为 Agent 设计。它有 CLI 工具链、TTS/字幕/去背景等媒体处理能力、50+ 现成的视频组件模板。

团队里有四个成员：视频生成团队主理人凌导、信息采集员灵阅、内容策划师灵枢、视频制作师灵映。

我输入一句需求，后面已经不是「一个 AI 在回答」了。

灵阅去搜热点、灵枢写脚本、灵映渲染视频、发布 Agent 去发平台。团长知道什么时候该拆任务、什么时候该并行、什么时候该串行。

这才是真正的 Multi-Agent，不是轮流回答，是有明确分工的团队协作。

做视频最耗时间的其实不是剪辑，是「今天到底拍什么」。

所以我先做了信息采集 Agent。它每天自动抓 RSS、搜新闻、扫社媒、聚合 AI 热点，还会把重复内容清洗掉，最后输出一份结构化摘要。

选题有了，真正费脑子的来了：「这条视频到底怎么讲？」

内容策划师灵枢负责选题评估、脚本写作、分镜设计、旁白文案，甚至镜头节奏。

连转场建议、素材清单、BGM 节奏、字幕停顿、情绪节点这些细节，它都会一起生成。

我最开始只是想「自动写文案」，后来发现真正耗时间的是「镜头语言」，于是干脆把「导演思维」也塞进去了。

灵映会把脚本自动转成 HTML，然后调用 HyperFrames 渲染 MP4。

系统自动完成 Azure TTS 配音、Whisper 字幕对齐、动画与转场生成、素材拼接、字幕叠加、视频渲染，最后直接输出成片。

更有意思的是，视频风格还能自动匹配。AI/科技新闻自动切深蓝科技风，知识科普变清新教育风，产品评测偏对比风，行业分析变商务数据风。

输出的效果，基本能直接发平台。

在 WorkBuddy 中，我还能在右侧看到每个 Agent 的运行流程和产物，整个过程透明可控。

最后一步我也不想手动点。

发布 Agent 会自动生成标题、自动打标签、自动上传封面，然后通过云手机发布到抖音、视频号和 B站。

让它把视频发到视频号上，几秒搞定。

就像一个微型视频制作公司，只不过成员全是 Agent，我只负责说一句话。

光会「生成」还不够。

真正重要的是学会别人为什么能爆。

于是我又搭了第二个团队，专门负责一件事：把一条爆款视频，拆成可以直接照着复刻的「操作手册」。

输入一个视频链接，它就会自动提取视频、转录文案、分析景别运镜、剪辑节奏、色调风格，生成完整拍摄脚本拆解文档，并提供可落地的仿拍建议。

整个流程分三个阶段。最复杂的是「视频下载」，所以我做了一套「三层降级策略」：官方 API → Playwright → yt-dlp。只要有一层成功，流程就继续。

团队里的角色分工：

角色

职责

工具/技术

阿爆

团长/拆解总控

任务调度、流程编排

小凯

音频处理与转录

ffmpeg、硅基流动 ASR

小淼

视频理解与镜头裁切

火山方舟视频理解 API、ffmpeg

使用起来非常简单，输入视频链接，阿爆就会调度团队开始工作。

视频下载完成后，小凯用 ffmpeg 提取音频，把video.mp4转成audio.mp3，然后调用硅基流动 API 做语音识别，自动转录完整口播文案。

以前做这种事情，最痛苦的就是一句句听、一句句敲。现在一键搞定。

接下来是最有意思的一步：视频理解。

调用火山方舟的视频理解 API，让 AI 分析整条视频的「镜头语言」。景别、运镜、转场、剪辑节奏、色调、镜头时长，全部拆得明明白白。

你会突然发现，那些看起来「很有感觉」的爆款视频，背后全是有规律的。

小淼还能自动裁镜头，根据时间戳把每个镜头片段单独切出来。

我还可以让两个专家团进行合作。

先拆解爆款视频，学习里面的镜头语言和节奏，然后让视频生成团队去生产新视频，发布之后继续分析数据，再反过来优化下一版内容。

一个团队负责「学习」，一个团队负责「生产」，形成闭环。

讲真的，以前想玩 Multi-Agent，你得自己研究 LangGraph、CrewAI、Agent 编排、Tool 调度、Workflow，门槛劝退了 99% 的人。

WorkBuddy 做的事情是把这些全部产品化了。

你不需要懂什么是 Agent、什么是 Tool，你只需要会说「帮我做 XXX」。

点开专家团，一句话派活，团长自动拆解分工，团员并行执行，最后整合交付。开箱即用，不需要自己搭环境、写工作流、配 API。

而且小程序也能用。通勤路上冒出一个想法，掏手机打开 WorkBuddy 小程序，一句话召唤专家团，到公司时结果已经在了。手机和电脑端对话上下文完全打通，随时切换设备继续。

目前 WorkBuddy 已经上线了 24 个专家团、160 位 AI 角色，覆盖产研、内容、增长变现、财税法务、数据、投资金融。

其实就有 2 个专家团是苍何为大家精心打造的，当然了我也会一直持续迭代。

说白了，一个人也能拥有一整家公司的专业班底。

以前「一人公司」更像一句口号，听着热血，做起来全靠硬撑。

现在我越来越觉得，AI 专家团正在把它变成现实。

你不需要什么都会，你只需要有一个 AI 团队什么都能干。

你只需要做好一件事：想清楚你要什么。

剩下的，交给团队。

如果你也想体验「一句话召唤一个团队」的感觉，去 WorkBuddy 试试专家团，说不定会打开新世界的大门。

觉得有用的话，点个赞再走呗，我们下期见~

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴