今天讲一个我自己每天都在用的东西,视频号粉丝做到 6000,每天我只手动干一件事:发布
880c0206e68697eb76d0c24d8b168c4d.jpg 起因
做视频号之前算过一笔账,一条 5 分钟的口播视频,写稿、录音、剪辑、加字幕、加 BGM,最快 2 小时。一周三条,光是视频就得吞掉 6 小时
太重了,做不下去
后来我换了个思路:公众号文章已经在写,能不能让 Coding Agent 把文章直接变成视频?
折腾了几周,把整条链路全打通。现在每天早上写完公众号,对 Agent 说一句"文章转视频 + 路径",喝杯茶回来 MP4 已经躺在那里,我只需要点"发布"
一句话生成视频,里面到底发生了什么
7 个 Agent Skills 串成一条流水线,互相调度,全程无人值守
你的文章(Markdown)
│
▼
┌─────────────────────────────────┐
│ 口播稿改写 │
│ 把书面语改成口语,去掉代码块, │
│ 调整节奏,加开场白和结束语 │
│ 内部还会调用一个标题生成器 │
└─────────────────────────────────┘
│
▼
┌─────────────────────────────────┐
│ 豆包 TTS 配音 │
│ 调用 seed-icl-2.0 模型 + │
│ 你自己克隆的音色 → 输出 MP3 │
│ 整条视频用你自己的声音 │
└─────────────────────────────────┘
│
▼
┌─────────────────────────────────┐
│ 火山 ASR 时间戳对齐 │
│ 把 MP3 喂给 volc.seedasr.auc, │
│ 返回每个字的出现时刻(毫秒级) │
└─────────────────────────────────┘
│
▼
┌─────────────────────────────────┐
│ Remotion 渲染竖版视频 │
│ Node.js + Remotion + │
│ 思源宋体,文字逐字出现, │
│ 9:16 竖版,干净利落 │
└─────────────────────────────────┘
│
▼
┌─────────────────────────────────┐
│ BGM 混音 │
│ ffmpeg 把人声和 BGM 按比例混合 │
│ 人声 1.0、BGM 0.15 → 成品 MP4 │
└─────────────────────────────────┘
│
▼
你只做这一步:发布
5 个 Skill,1 个标题生成器,1 个主编排 Skill,加起来 7 个文件,整条链路自动跑通
实测数据
1500 字公众号文章 → 2-3 分钟竖版视频
渲染耗时(Apple M2/M3 本地):8-12 分钟
每条视频 API 成本:约 0.1 元(TTS + ASR)
字幕和声音的同步精度:肉眼无错位
声音是你自己的克隆音色,不是机器音
下载到的是一个 zip 包,约 31 MB(思源宋体字体已经塞在里面,不用再单独下)
article-to-video-skills-share.zip
├── README.md 入口导航
├── INSTALL.md 给 Coding Agent 看的安装指引
├── PROMPT-FOR-AGENT.md 开箱即用的安装提示词,复制粘贴给 Agent
├── SETUP-FOR-HUMAN.md 给你看的 API 申请清单 + 费用估算
├── requirements.txt Python 依赖清单
└── skills/
├── 1-article-to-video/ 主编排 Skill,触发词:"文章转视频"
│ ├── SKILL.md
│ └── scripts/
├── 1-video-script-converter/ 口播稿改写
│ ├── SKILL.md
│ ├── scripts/
│ ├── references/
│ └── assets/
├── 1-title_generator/ 标题生成
│ └── SKILL.md
├── 1-doubao-tts-voice-clone/ 豆包 TTS + 音色克隆
│ ├── SKILL.md
│ ├── tts_voice_clone.py
│ └── test_tts_voice_clone.py
├── 1-audio-to-video/ 火山 ASR 时间戳
│ ├── SKILL.md
│ ├── scripts/
│ └── assets/
├── 1-remotion-audio-to-video/ Remotion 渲染(含字体)
│ ├── SKILL.md
│ ├── scripts/
│ └── assets/
│ └── SourceHanSerifSC-VF.ttf 57MB,已内嵌
└── 1-video-bgm-mixer/ ffmpeg BGM 混音
├── SKILL.md
└── scripts/
所有代码都做了脱敏处理,我的 API Key、音色 ID、品牌名、工作区路径全部替换成占位符(${YOUR_VOICE_ID}、${YOUR_BRAND_NAME}、${WORKSPACE_ROOT}这种形式),安装时由 Agent 引导你填上自己的值
安装流程
解压 zip 包
把
PROMPT-FOR-AGENT.md里那段提示词整段复制,粘给你的 Coding AgentAgent 会问你:工作区在哪、API Key 是多少、音色 ID 填什么、品牌名叫什么
Agent 自动帮你复制 skill 目录、替换占位符、装 Python 依赖、装 npm 依赖、把字体复制到系统目录
装完后对 Agent 说"文章转视频",能跑通就是 OK
整个过程 15-30 分钟,绝大部分时间在等npm install
适合谁
已经在写公众号或博客,想低成本同步做视频号
有 Coding Agent 基础,知道 Claude Code 或 Cursor 怎么用
想用自己的声音做视频,不想露脸
不想每条视频耗 2 小时
完全没接触过 Coding Agent,需要先去看入门教程
想做真人出镜或剪辑花哨的视频,这套是固定竖版字幕口播风格
不愿意配置 API Key(这套依赖火山引擎,绕不开)
500 元,一次买断
包含:
完整的 31MB zip 包(7 个 Skill + 4 份文档 + 字体 + Python 依赖清单)
一对一安装答疑(48 小时内响应,把错误信息发我,大概率是路径或 Key 配置问题)
加我微信备注"视频技能包"
总结
这套东西的价值,不在于"AI 生成视频"这个功能本身,市面上工具一抓一大把
它的价值在于:和你已经在做的事(写公众号)无缝衔接,复用你的声音、你的文风、你的更新节奏,把视频号的更新成本压到接近于零
你写完文章,剩下的事 Agent 全包了,你只需要做最后一件事:发布
热门跟贴