Google把10GB模型塞进Mac，语音转写精度让我愣了3秒

灰度测试中

2026-04-13 08:05 ·北京

14秒的语音备忘录，Gemma 4 E2B用一行命令跑完，错把"right"听成"front"，"well"漏成空气。这个误差放在两年前是基操，放在今天——当所有人盯着GPT-4o的实时对话流口水时——Google突然甩出个能本地跑的10.28GB多模态模型，事情变得有点意思。

一行命令背后的技术减法

一行命令背后的技术减法

开发者Rahim Nathwani分享的这条uv run指令，本质上是在做减法：MLX框架把苹果芯片的神经网络引擎喂饱，mlx-vlm（多模态语言模型）负责打通音频-文本的任督二脉，Gemma 4 E2B则扮演那个"听得懂但不算完美"的转录员。没有API调用，没有云端排队，你的Mac风扇甚至懒得转。

这套组合拳的微妙之处在于"够用的精度+零延迟+零订阅费"的三角平衡。

测试者自己承认，那两个错词"我能理解为什么它听错了"——发音确实黏连。这种诚实比发布会PPT里的99%准确率更有参考价值：它告诉你边界在哪，而不是画饼。

为什么是现在？为什么是音频？

为什么是现在？为什么是音频？

Google今年在Gemma系列上的节奏明显加快。从2B到4B到12B，从纯文本到多模态，现在E2B（Efficient 2 Billion，高效20亿参数版本）把体积压缩到能塞进普通笔记本，同时保留对音频的直接处理能力。这不是技术炫技，是对"边缘AI"场景的精准卡位。

想想那些不能上云的场景：医院病历转录、律所客户面谈、工厂设备巡检——数据合规比模型智商更重要。Gemma 4 E2B的10GB体量，恰好踩在"能跑"和"能带"的分界线上。

那个被漏掉的"well"

那个被漏掉的"well"

回到测试者的14秒录音。模型把"how well that works"吞成"how that works"，少了一个副词，语义从"测试效果"滑向"测试功能"。这种细微偏差在会议记录里可能致命，在语音备忘录里无伤大雅。

但恰恰是这个"well"的消失，暴露了当前端侧模型的天花板：它懂你的语言，还没完全懂你的语气。

当云端大模型用算力暴力破解一切时，Google选择了一条更克制的路——把70分的体验塞进你的电脑，而不是100分的体验锁在服务器里。你会为"随时能用"牺牲那30分吗？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴