18个月造AI视频工具：3个假设全翻车，第10个月差点重写

固件更新中

2026-04-03 09:07 ·北京

一个内容创作者每周日花4小时做同一件事： scrub视频、切片段、改竖版、加字幕、排期发布。这不是剪辑——他有剪辑师。这是分发，机械到让人发狂的重复劳动。

「机器应该做这个。」ClipSpeedAI创始人用6周搭出原型。它能按台词分段切片段，自动居中裁竖版。输出很烂，但管道通了。

接下来12个月，他发现自己对用户的三个核心假设，全错。

假设1：用户要最多片段

假设1：用户要最多片段

原型能批量吐25个片段，团队以为这是卖点。

用户反馈来得很快：25个平庸片段，不如8个优质片段。没人愿意从垃圾堆里翻金子。团队被迫重建选择模型——从简单分段转向病毒传播潜力评分。

「最 clips」变成「最佳 clips」，算法逻辑彻底换轨。

假设2：台词分析最难

假设2：台词分析最难

他们押注 transcript 解析是技术深水区。实际最难的是人脸追踪。

片段选对了，但竖版重构图一塌糊涂：人物出框、构图失衡、视觉节奏断裂。用户一眼认出「AI做的」，信任崩塌。

重建人脸追踪管道成为项目最吃技术力的部分。创始人后来承认，这部分消耗的工程时间远超预期。

假设3：用户想全自动

假设3：用户想全自动

「设置好就不用管」是产品设计的终极幻想。

真实场景：用户要控制感，不要黑箱。他们愿意让AI做90%的预筛选，但最终决策必须在自己手里，且决策时间要压缩到20分钟以内。

UX重新校准：不是「自动化」，是「加速审核」。

第10个月的沉默崩溃

第10个月的沉默崩溃

架构债务在月10爆发。原型代码撑不住生产流量，一个 MediaPipe 线程问题吃掉两周。

Railway 容器环境对 pthread 的限制，与 MediaPipe 默认配置冲突。进程看似运行，实则零输出——静默失败是最折磨人的调试场景。

解法简单到可笑：导入 MediaPipe 前强制单线程。找到它，花了14天。

创始人留下一条血训：「Day 1就要埋监控。看不见 pipeline 哪段失败、错误状态是什么，你会把几天浪费在 trivially fixable 的 bug 上。」

产品最终形态是反直觉的：不是更智能的AI，是更聪明的人机分工。AI负责机械劳动和初步筛选，人类保留审美判断和最终拍板权。

那些试图把人类完全踢出流程的工具，用户反而用不下去。

现在他每周日花20分钟审核AI预选的片段，而不是4小时手动切割。省下的时间，用来想下一个视频拍什么——这原本是创作的本分，却被分发琐事长期劫持。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴