400 million次下载。这是Google Gemma家族交出的成绩单,而最新一代Gemma 4直接把战场搬到了你的裤兜里——完全离线运行,数据永不触云。

发布48小时内,承载Gemma 4的Google AI Edge Gallery应用冲上iOS免费生产力榜第4位,排在它前面的只有Claude、Gemini和ChatGPT。一个开源模型,没花一分钱推广费,用户用脚投票的速度比市场部写PPT还快。

手机端跑大模型,Google这次没画饼

手机端跑大模型,Google这次没画饼

Gemma 4的核心卖点粗暴直接:文本、图像、音频全在本地处理。不需要Wi-Fi,不需要5G,不需要把聊天记录同步到某个遥远的数据中心。

Google给手机端准备了两个型号。E2B(2B有效参数)量化后约1.3GB,6GB内存即可运行;E4B(4B有效参数)约2.5GB,需要8GB内存。这里的"E"代表effective parameters(有效参数),即推理时真正激活的参数数量,而非模型总参数量。

与Arm、Qualcomm的联合优化让数字变得好看:Android端运行速度比上一代提升4倍,耗电降低60%。Arm自家测得更激进——在新款Arm芯片(支持SME2指令集)上,平均加速达到5.5倍。SME2是Arm为AI矩阵运算做的硬件级扩展,相当于给手机芯片装了专门的数学加速器。

系统门槛不算高:Android 12或iOS 17。但RAM是硬门槛,6GB和8GB两条线把老旧机型挡在门外。

Agent能力落地:Wikipedia和地图都能本地调用

Agent能力落地:Wikipedia和地图都能本地调用

基础功能之外,Gemma 4内置了Google称为"agent skills"的工具链:Wikipedia搜索、交互式地图、自动生成摘要、记忆卡片。模型能描述照片、将语音输入转为图表可视化,甚至与其他本地模型协作完成文本转语音或图像生成。

Google的演示案例很接地气——一个能描述并播放动物叫声的demo skill。听起来像儿童玩具,但技术路径很清晰:多模态理解+本地音频合成,全程不上云。

图像识别是另一处升级。OCR(光学字符识别)从图片、图表、手写内容中提取文字的准确率明显提升。时间信息处理也更可靠,这对日历、提醒、闹钟类应用是刚需。

单独看,这些功能云端AI早已实现。Gemma 4的差异点在于:所有操作在设备端闭环完成。

Apache 2.0许可证:商业友好的开源底牌

Apache 2.0许可证:商业友好的开源底牌

Gemma 4基于与Google闭源Gemini 3相同的研究成果,但选择了Apache 2.0许可证。这意味着企业可以免费用、改、商用,没有专利陷阱,没有"仅供研究"的小字条款。

Google披露Gemma家族累计下载超4亿次,支持140+语言。这个数字放在开源模型领域相当扎实——不是GitHub star那种虚指标,是实打实的模型拉取和部署。

服务器端还有两个更大版本:26B(混合专家架构,128个专家,单次推理激活3.8B参数)和31B(稠密模型,上下文窗口256K token)。手机端用E2B/E4B,服务器端用26B/31B,Google用一套技术栈覆盖了从边缘到数据中心的完整光谱。

4亿下载之后,手机AI的游戏规则变了?

4亿下载之后,手机AI的游戏规则变了?

App Store排名是用户行为的即时反馈。Gemma 4的蹿升说明一件事:市场愿意为"离线可用+数据私密"买单,哪怕模型能力比云端版本弱一档。

这对现有格局的冲击是真实的。Claude、Gemini、ChatGPT的免费 tier 都依赖云端推理,用户每次提问都在消耗厂商的算力成本。Gemma 4把成本转嫁给用户的手机芯片和电池,换取了零订阅费、零网络依赖、零隐私焦虑。

Google的算盘也很清楚:用开源模型占领边缘设备,把商业变现留给云端Gemini。Gemma 4是诱饵,也是护城河。

但问题同样明显。6GB/8GB的内存门槛淘汰了大批中低端机型,而这类用户恰恰是"付不起云订阅费"的核心受众。E2B/E4B的能力边界能覆盖多少真实场景,还需要开发者社区用实际应用来验证。

一位早期用户在Reddit反馈,用E4B处理一份5页PDF的摘要生成,耗时约12秒,结果可用但不如GPT-4o流畅。另一位开发者测试了本地Wikipedia查询,响应速度取决于词条长度,短词条2秒内返回,长词条需要分段加载。

这些粗糙的边缘,是开源模型上手机的代价,也是下一代优化的起点。

当Google把4亿下载的技术积累压缩进2.5GB的模型文件,手机AI的竞争维度已经悄然转移——从"谁的模型更大"变成"谁能在断网时依然好用"。你的下一部手机,会为这种能力多付多少钱?