一个系统工程师每天下班后还要在工位前坐5-7小时,他的手指和腰背先扛不住了。不是 workload 的问题,是输入方式本身成了瓶颈——想法到屏幕的距离,被键盘拖得太长。
三个月前,他停下了打字。现在这篇文章,是他对着手机念出来的。
「云方案全试过了,全是坑」
Whisper small 在 CPU 上跑,一句话要卡3-4秒。Whisper medium 吃掉4GB内存,速度还是追不上说话的节奏。Faster Whisper 快了点,但俄英混输时准确率崩掉。Vosk 能离线,模型体积惊人,识别质量还飘忽不定。
他试了一圈开源方案,最后回到了手机上那个被忽略的系统级功能:Android 原生语音输入。
谷歌往这个功能里砸了上百亿优化,他发现自己没必要在单台服务器上复刻这条赛道。
架构简单到「不好意思跟人讲」
整个系统只有两步:
Android 应用把识别后的文本通过 WiFi 发到工作站;工作站上的服务接收文本,直接塞进当前光标位置。完事。没有云端,没有服务器端处理,没有 Whisper。
手机就搁在桌边。想「打字」的时候,长按应用、说话、看着文字实时出现在屏幕上,松手,内容已经插进终端、浏览器、IDE 或聊天窗口里。局域网延迟低到无感。
语言切换是自动的。英语、俄语、乌克兰语,系统从音素里自己判断。只有 kubectl、xdotool 这类代码词需要手动敲——训练数据里确实没有它们。
效率数字:3倍
他做了非正式测量:写提示词、提交信息、文档这类任务,耗时降到原来的三分之一。瓶颈从「手指跟不上脑子」变成了「脑子本身的速度」,这才是正常状态。
身体变化更直观。他有张电动升降桌,以前很少站用——站着打字手腕角度别扭。现在站着说话,姿势自由了,腰背压力骤减。
一个被低估的常识
这个故事的核心不是技术选型,而是对「本地化」的重新理解。工程师们习惯把语音转文字当成需要自建的基础设施,却忽略了终端厂商已经替所有人付过账单。
Android 的 on-device 识别模型,是谷歌用海量数据、专用芯片、多年迭代堆出来的。个人开发者或小型团队试图在服务器上复现,相当于用自行车追高铁。
他的选择是:承认差距,借用成果,把精力花在连接层——让手机和工作站说同一种方言。
这套方案当然有限制。代码词识别弱、需要安静环境、公开场合用着尴尬。但对于他每天5-7小时的居家工作流,覆盖场景足够广。
他最后提了一个细节:PWA 版本能在浏览器里跑,但他还是主要用原生应用。那种「按住-说话-松手」的物理反馈,比点击屏幕更契合肌肉记忆。
如果苹果或谷歌哪天把这套机制直接做进桌面系统的全局快捷键,现在这些 DIY 方案还有存在的必要吗?
热门跟贴