一个内容创作者每周日花4小时做同一件事: scrub视频、切片段、改竖版、加字幕、排期发布。这不是剪辑——他有剪辑师。这是分发,机械到让人发狂的重复劳动。
「机器应该做这个。」ClipSpeedAI创始人用6周搭出原型。它能按台词分段切片段,自动居中裁竖版。输出很烂,但管道通了。
接下来12个月,他发现自己对用户的三个核心假设,全错。
假设1:用户要最多片段
原型能批量吐25个片段,团队以为这是卖点。
用户反馈来得很快:25个平庸片段,不如8个优质片段。没人愿意从垃圾堆里翻金子。团队被迫重建选择模型——从简单分段转向病毒传播潜力评分。
「最 clips」变成「最佳 clips」,算法逻辑彻底换轨。
假设2:台词分析最难
他们押注 transcript 解析是技术深水区。实际最难的是人脸追踪。
片段选对了,但竖版重构图一塌糊涂:人物出框、构图失衡、视觉节奏断裂。用户一眼认出「AI做的」,信任崩塌。
重建人脸追踪管道成为项目最吃技术力的部分。创始人后来承认,这部分消耗的工程时间远超预期。
假设3:用户想全自动
「设置好就不用管」是产品设计的终极幻想。
真实场景:用户要控制感,不要黑箱。他们愿意让AI做90%的预筛选,但最终决策必须在自己手里,且决策时间要压缩到20分钟以内。
UX重新校准:不是「自动化」,是「加速审核」。
第10个月的沉默崩溃
架构债务在月10爆发。原型代码撑不住生产流量,一个 MediaPipe 线程问题吃掉两周。
Railway 容器环境对 pthread 的限制,与 MediaPipe 默认配置冲突。进程看似运行,实则零输出——静默失败是最折磨人的调试场景。
解法简单到可笑:导入 MediaPipe 前强制单线程。找到它,花了14天。
创始人留下一条血训:「Day 1就要埋监控。看不见 pipeline 哪段失败、错误状态是什么,你会把几天浪费在 trivially fixable 的 bug 上。」
产品最终形态是反直觉的:不是更智能的AI,是更聪明的人机分工。AI负责机械劳动和初步筛选,人类保留审美判断和最终拍板权。
那些试图把人类完全踢出流程的工具,用户反而用不下去。
现在他每周日花20分钟审核AI预选的片段,而不是4小时手动切割。省下的时间,用来想下一个视频拍什么——这原本是创作的本分,却被分发琐事长期劫持。
热门跟贴