视频号做到6000粉，我每天只做一件事|key|md|zip|文章|自然语言|视频号

今天讲一个我自己每天都在用的东西，视频号粉丝做到 6000，每天我只手动干一件事：发布

880c0206e68697eb76d0c24d8b168c4d.jpg 起因

做视频号之前算过一笔账，一条 5 分钟的口播视频，写稿、录音、剪辑、加字幕、加 BGM，最快 2 小时。一周三条，光是视频就得吞掉 6 小时

太重了，做不下去

后来我换了个思路：公众号文章已经在写，能不能让 Coding Agent 把文章直接变成视频？

折腾了几周，把整条链路全打通。现在每天早上写完公众号，对 Agent 说一句"文章转视频 + 路径"，喝杯茶回来 MP4 已经躺在那里，我只需要点"发布"

一句话生成视频，里面到底发生了什么

7 个 Agent Skills 串成一条流水线，互相调度，全程无人值守

你的文章（Markdown）
        │
        ▼
┌─────────────────────────────────┐
│ 口播稿改写              │
│  把书面语改成口语，去掉代码块， │
│  调整节奏，加开场白和结束语     │
│  内部还会调用一个标题生成器     │
└─────────────────────────────────┘
        │
        ▼
┌─────────────────────────────────┐
│ 豆包 TTS 配音           │
│  调用 seed-icl-2.0 模型 +       │
│  你自己克隆的音色 → 输出 MP3    │
│  整条视频用你自己的声音         │
└─────────────────────────────────┘
        │
        ▼
┌─────────────────────────────────┐
│ 火山 ASR 时间戳对齐     │
│  把 MP3 喂给 volc.seedasr.auc， │
│  返回每个字的出现时刻（毫秒级） │
└─────────────────────────────────┘
        │
        ▼
┌─────────────────────────────────┐
│ Remotion 渲染竖版视频   │
│  Node.js + Remotion +           │
│  思源宋体，文字逐字出现，       │
│  9:16 竖版，干净利落            │
└─────────────────────────────────┘
        │
        ▼
┌─────────────────────────────────┐
│ BGM 混音                │
│  ffmpeg 把人声和 BGM 按比例混合 │
│  人声 1.0、BGM 0.15 → 成品 MP4  │
└─────────────────────────────────┘
        │
        ▼
   你只做这一步：发布

5 个 Skill，1 个标题生成器，1 个主编排 Skill，加起来 7 个文件，整条链路自动跑通

实测数据

1500 字公众号文章 → 2-3 分钟竖版视频
渲染耗时（Apple M2/M3 本地）：8-12 分钟
每条视频 API 成本：约 0.1 元（TTS + ASR）
字幕和声音的同步精度：肉眼无错位
声音是你自己的克隆音色，不是机器音

交付物文件树

下载到的是一个 zip 包，约 31 MB（思源宋体字体已经塞在里面，不用再单独下）

article-to-video-skills-share.zip
├── README.md                       入口导航
├── INSTALL.md                      给 Coding Agent 看的安装指引
├── PROMPT-FOR-AGENT.md             开箱即用的安装提示词，复制粘贴给 Agent
├── SETUP-FOR-HUMAN.md              给你看的 API 申请清单 + 费用估算
├── requirements.txt                Python 依赖清单
└── skills/
    ├── 1-article-to-video/         主编排 Skill，触发词："文章转视频"
    │   ├── SKILL.md
    │   └── scripts/
    ├── 1-video-script-converter/   口播稿改写
    │   ├── SKILL.md
    │   ├── scripts/
    │   ├── references/
    │   └── assets/
    ├── 1-title_generator/          标题生成
    │   └── SKILL.md
    ├── 1-doubao-tts-voice-clone/   豆包 TTS + 音色克隆
    │   ├── SKILL.md
    │   ├── tts_voice_clone.py
    │   └── test_tts_voice_clone.py
    ├── 1-audio-to-video/           火山 ASR 时间戳
    │   ├── SKILL.md
    │   ├── scripts/
    │   └── assets/
    ├── 1-remotion-audio-to-video/  Remotion 渲染（含字体）
    │   ├── SKILL.md
    │   ├── scripts/
    │   └── assets/
    │       └── SourceHanSerifSC-VF.ttf   57MB，已内嵌
    └── 1-video-bgm-mixer/          ffmpeg BGM 混音
        ├── SKILL.md
        └── scripts/