打开网易新闻 查看精彩图片
做字幕工具的创业公司,今天集体失眠了。字节跳动技术专家宝玉(baoyu)在GitHub扔了个Agent技能包,零API密钥就能扒YouTube完整字幕——包括多语言、章节分段、说话人识别,输出格式直接给SRT和Markdown。
这相当于把原本需要调Google Cloud Speech-to-Text、再写200行解析代码的脏活,压缩成一句自然语言指令。有开发者试完感慨:「以前外包给印度团队做字幕,现在Agent五分钟出稿,成本归零。」
打开网易新闻 查看精彩图片
技术细节很直白。宝玉用浏览器自动化绕过了YouTube的访问限制,本地跑Whisper做语音识别,再用LLM区分说话人。没有服务器账单,没有速率限制,个人用户跑在笔记本上就能处理4小时长视频。
字幕赛道的老玩家反应分化。Descript和Otter.ai这类付费工具的用户开始流失,Reddit上已有教程教如何用宝玉的工具+Claude批量生成带时间轴的播客笔记。而专注B端的企业服务商相对淡定——他们赌的是企业客户不会把内部视频丢给开源脚本。
宝玉本人没发推特,只在GitHub简介里更新了技能列表。但Star数6小时破千,Issue区第一条反馈是:「能加Vimeo支持吗?我们小公司付不起Rev.com的账单。」
热门跟贴