你的聊天记录、体检报告、深夜写下的想法——这些最私密的对话,正被一台台服务器永久存档。这是当下使用AI的默认代价:用数据换智能。一位开发者决定打破这个交易。

他做了一个叫Krexel的Android应用。完全离线运行,无需联网,没有API密钥,数据不出手机。核心依赖Gemma 4 E2B模型,通过llama.cpp在本地推理。目标硬件是中端安卓机:6-8GB内存,全球数十亿人手中的设备。

打开网易新闻 查看精彩图片

应用整合四个功能:对话AI带可视化的推理模式;键盘AI可在任何安卓应用内调用;笔记AI支持本地总结、改写、润色和翻译;翻译AI覆盖70多种语言,零API成本。演示视频展示了飞行模式下的离线聊天、第三方应用内的键盘辅助、本地医疗报告分析,以及Gemma 4的推理过程。

打开网易新闻 查看精彩图片

技术实现的关键是SharedAIManager——一个单例模块,把四个功能的推理请求串行化处理。多入口共享单一模型带来一个核心难题:优先级冲突。键盘正在生成建议时用户打开聊天窗口怎么办?方案是三级优先级抢占机制。后台任务(键盘建议、通知快捷回复)为0级,普通对话为1级,交互式笔记编辑(用户实时等待)为2级。高优先级请求到达时,低优先级生成立即取消。

另一个设计是队列互斥锁。每次生成必须获取锁,状态在finally块中清理,确保任何情况下资源都被释放。代码片段显示:生成前设置isGenerating标志和当前优先级,try块内调用阻塞式生成,finally块重置所有状态。

打开网易新闻 查看精彩图片

模型选择经过权衡。作者明确排除了其他方案,选用unsloth/gemma-4-E2B-it-GGUF,约2.9GB。测试设备为Realme RMX5070,7.2GB内存。这不是远程API的包装壳,模型直接在手机上运行。Krexel为专有软件,Google Play版本即将发布。