我盯了这块树莓派5好一阵子。主动散热风扇贴着主芯片,M.2固态硬盘指示灯明明灭灭,4GB内存的规格就这么刻在板子上。一个念头转了很久:能不能在这张信用卡大小的主板上,跑一个完整的、可用的20亿参数AI模型?

几个月前,我在主力工作站上试过Gemma 3的1B版本。说实话,那个小模型的表现完全超出预期。日常的文字任务、头脑风暴辅助,它处理得异常流畅,整套运行完全本地化,没察觉到半点延迟。因为主力机的硬件配置不错,当时跑起来毫无压力,但也正因为这一次体验,我开始琢磨——能不能把这种离线AI的能力,干脆搬到一个功耗极低的设备上?不用依赖主力机,不用联网,所有运算就在一块单板计算机上完成。

打开网易新闻 查看精彩图片

之前从没在树莓派5上运行过任何大语言模型。这次我直接跳过那些更轻量的型号,决定把硬件逼到真正意义上的极限。目标很明确:把最新的Gemma 4 2B模型,使用8比特量化版本,部署到这台只有4GB内存的树莓派5上。这块板子能不能撑起一个现代化、可实际使用的AI服务?这个测试本身就让人兴奋。

能下定决心在4GB内存板上跑这种体量的模型,得归功于手头这两项升级:一个主动散热风扇和一块高速固态硬盘。如果没有主动散热,树莓派5的处理器全力运算时很快会撞到温度墙,频繁降频;没有SSD的快速读写,模型的加载和上下文切换会直接拖垮体验。在这么紧张的资源包里,这两样东西不是可有可无的配件,而是决定“能不能跑”的关键。

硬件准备就绪后,软件部分就得极度克制。既然运行环境的内存和算力都紧凑,操作系统本身就需要“瘦身”。我选了官方的Raspberry Pi OS Lite 64位版,放弃了带有完整桌面环境的版本。整台机器跑在纯命令行模式下,不启动任何图形界面,这意味着树莓派5的每一兆内存、每一个空闲的CPU周期,都会被省下来,全部留给后面的本地大模型任务。

系统装好,第一步是拉取更新包,保持基础环境健壮。紧接着因为Lite版为了精简,默认没有装完整的Vim编辑器,我手动补上了这个工具。接下来的软件栈选型,对资源敏感型的部署来说同样重要——我需要一个既不占资源又能稳定管理容器的方案。最终决定用Podman而非Docker。关于这个选择,原文给出的理由很直接:Podman在设计上更适合这类优化场景(具体描述因原文截断未完整展开),但可以在极简系统中完成容器化部署。

此时,底层的准备工作告一段落。树莓派5当前的状态已经完全为单一任务调优:精简的操作系统、无图形开销、更新到最新、关键工具到位。接下来该进入核心步骤——拉取Gemma 4 2B的量化模型镜像,把它“喂”进这块小板的4GB内存里。试验才刚刚开始,但看着风扇稳稳旋转、命令行提示符安静等待,我对结果还真有那么一点期待。