做架构图最烦什么?不是画不出来,是画到一半发现Mermaid语法报错,渲染全崩。一位开发者最近开源的DiagramFlowAI,用谷歌最小的Gemma 4模型解决了这个问题——而且完全本地运行,连网都不用。

这个桌面应用的核心矛盾抓得很准:工程师画内部系统架构时,认证流程、数据管道、安全边界这些信息,上传到云端LLM等于踩合规红线。DiagramFlowAI的做法是,用flutter_gemma和LiteRT把Gemma 4 E2B/E4B塞进本地,下载完模型就断网,零API密钥、零遥测。

打开网易新闻 查看精彩图片

有意思的是,作者刻意避开了31B Dense和26B MoE这些"显眼包"大模型,专挑最小的E2B(20亿参数)和E4B(40亿参数)。理由很实际:4-6GB内存就能跑,集成显卡也流畅;用户点下载直接用,不用填密钥、绑信用卡;冷启动快,M系列Mac和现代PC上几秒响应。

真正让这个小模型能用的,是Gemma 4的"Thinking Mode"。flutter_gemma SDK把模型的内部推理过程拆成独立的ThinkingResponse数据流,用户界面能实时显示模型在"想什么"。

这对生成Mermaid语法至关重要。Mermaid的语法极其脆弱—— stray colon、没加引号的字符串、漏掉的end标签,任何一个都能让整个图崩掉。没有思考模式时,4B参数模型直接输出语法,错误率感人;开启Thinking Mode后,模型会先内部推演结构,再输出最终代码,复杂流程图的准确率大幅提升。

作者还做了个细节:E2B和E4B之间留了切换开关。E2B更快,E4B在复杂语法上更准,让用户自己选。

这个案例的启示挺直接的:边缘端AI不是"大模型的降级版",而是特定场景的最优解。当隐私是硬约束、用户体验要无缝、硬件要普适时,小模型+推理可见性,可能比盲目堆参数更管用。