去年有个数据挺有意思:全球还有37亿人没接入稳定互联网。但AI的故事一直在讲云端算力、API调用、订阅服务——仿佛没网的人不配用。

谷歌这周发布的Gemma 4,直接把70亿参数的大语言模型塞进了手机本地。不需要信号,不需要账号,数据不出设备。这相当于把2022年需要A100显卡才能跑的东西,压缩进了你的裤兜。

从"必须联网"到"可以离线",中间隔了三年压缩史

从"必须联网"到"可以离线",中间隔了三年压缩史

2022年的大模型是数据中心里的巨兽。GPT-3有1750亿参数,推理一次消耗的电量能让灯泡亮几小时。当时没人觉得这东西能本地跑,就像没人觉得核电站能装进口袋。

变化发生在三个战场。量化技术把模型精度从32位砍到4位,体积缩水8倍;知识蒸馏让"小模型"学会"大模型"的解题思路;手机芯片的NPU(神经网络处理器)算力三年涨了4倍。这三条线交汇,才有了现在的临界点。

Gemma 4不是第一个能跑在本地的模型,但它是第一个把"可用性"做到位的。之前的尝试要么太小(只能做简单问答),要么太慢(等10秒才蹦出一个词),要么太折腾(需要用户自己下命令行工具)。谷歌这次直接给了安卓安装包,点完就能用。

一个细节能说明态度差异:Gemma 4的4B版本在Pixel 8上跑,首词延迟(从输入到开始输出)压到了2秒以内。这个指标产品经理最懂——超过3秒,用户就觉得"卡了";2秒以内,体感上是"即时响应"。

离线AI的真正价值,不在"没网也能用"

离线AI的真正价值,不在"没网也能用"

很多人第一反应是:这适合信号差的场景,比如地铁、飞机、偏远地区。这个理解对,但窄了。

更关键的维度是隐私。你的聊天记录、病历、财务数据,不用上传到任何服务器。医疗和法律行业对这点极其敏感——不是信不过云服务商,是合规成本太高。欧盟GDPR、美国HIPAA,数据出境的审批流程能拖垮一个小团队。

另一个维度是成本。云端大模型按token收费,本地跑只耗电量。对日活千万级的应用来说,这笔账很现实。一个社交App如果能把智能回复功能从云端切到本地,每月能省下的API费用够养一个小团队。

还有个容易被忽略的:确定性。云端模型会升级、会调整、会偶尔抽风。本地模型版本固定,输出可预期。这对需要稳定行为的场景(比如嵌入式设备、工业控制)是刚需。

谷歌为什么要做这件事?

谷歌为什么要做这件事?

Gemma系列是谷歌的"开放模型"线,和闭源的Gemini(谷歌自家AI助手)并行。这个策略本身就有意思——既卖云服务,又送能跑在本地的免费模型。

表面看是左右互搏,实际是抢占标准。安卓生态需要一套原生的、低门槛的端侧AI能力,对抗苹果Apple Intelligence的封闭体系。Gemma 4就是那颗钉子,先占住位置,再谈商业模式。

技术路线也有讲究。Gemma 4用了"专家混合"架构(Mixture-of-Experts,MoE),27亿总参数里每次只激活90亿。这相当于一个团队有27个专家,但每个问题只找最相关的3个人回答,既省算力又保质量。

谷歌DeepMind的Thomas Mesnard在发布博客里写得很直接:「我们希望开发者能在任何设备上构建AI应用,而不需要担心网络连接或隐私合规。」这句话的潜台词是:云AI的 friction(摩擦成本)太高了,我们要把它抹掉。

端侧AI的瓶颈,还没完全打通

端侧AI的瓶颈,还没完全打通

别急着欢呼。本地跑大模型,现在能用的场景还是有限。

首先是内存墙。Gemma 4的4B版本需要4GB内存,9B版本需要8GB。这对旗舰机不算事,但对中低端机是门槛。全球手机存量里,能流畅跑9B版本的设备占比不到15%。

其次是知识截止。本地模型没法实时联网查资料,知识库是训练时的快照。问它"昨天股市怎么样",它只能瞎编或拒绝。RAG(检索增强生成)技术能部分解决,但要把知识库也塞进手机,又是另一道工程题。

最隐蔽的问题是更新。云端模型每周能迭代,本地模型用户可能一年都不升级。安全漏洞、偏见问题、新能力,都卡在分发渠道上。谷歌的解决方案是Play Store推送,但这又绕回了"需要联网"——离线场景的悖论。

一个开发者在Hacker News上的评论很典型:「终于不用把用户数据发给OpenAI了,但我现在得操心怎么让用户下载2GB的模型文件。」

谁会在第一批用起来?

谁会在第一批用起来?

短期看,三类场景最可能落地。

输入法是现成的。智能纠错、语气调整、快捷回复,这些功能对模型能力要求适中,但对延迟极其敏感。本地跑能砍掉网络往返的100毫秒,打字体验质变。

笔记和文档工具也在排队。Notion、Obsidian这类产品一直想加AI,但担心用户数据上云引发反弹。本地模型给了个折中方案:敏感内容本地处理,非敏感功能走云端。

最意外的是游戏。NPC对话、剧情生成、实时翻译,这些过去需要联网的功能,现在能完全离线。对出海游戏厂商来说,这意味着不用在全球各地部署服务器,也能保证一致的AI体验。

谷歌自己先做了个示范:Gemma 4发布当天,Pixel手机的录音机App就更新了离线转写和摘要。没网也能把两小时的会议录音变成要点——这个场景足够具体,足够痛点。

一个值得玩味的细节:Gemma 4的许可协议允许商用,但超过7亿用户的产品需要单独申请。谷歌在开放和控制之间画了条线,既不想错过生态繁荣,又不想养出竞争对手。

当AI从"云服务"变成"本地功能",应用开发的逻辑会变吗?如果模型本身成了操作系统的一部分,那些靠API调用收费的中间层公司,护城河还在吗?