2024年,一台Mac Mini能跑的大模型,有人把它塞进了10美元的开发板。不是噱头——是真的能联网搜索、记笔记、定闹钟的那种。
这事要从OpenClaw(MoltBot)说起。上个月圈子里疯传:开发者zclaw证明ESP32单片机——内存以KB计的那种——能跑AI代理框架。888KB固件,没Linux,没Node.js,纯C代码。
我第一反应是怀疑。ESP32我玩过,智能家居传感器、温湿度监测,都是轻量级任务。让它当"个人AI助手"?听起来像把自行车发动机装进F1赛车。
但MimiClaw这个项目更激进。它在zclaw基础上加了网页搜索、持久化记忆、内置定时器,硬件升级到ESP32-S3——还是10美元价位。我买了块板子,花了一个下午,想验证这是不是玩具。
搭建过程:比想象中麻烦,比预期中可行
先说结论:能用,但有门槛。不是插电源就亮的消费级产品,得自己编译刷固件。熟悉终端操作是刚需,排错时间可能超过实际搭建。
我的环境是Mac,先用Homebrew装了ESP-IDF v5.5开发框架。这里有个细节:必须用支持数据传输的USB-C线。很多充电线只有供电触点,连上电脑没反应,能浪费你半小时。
克隆MimiClaw仓库很快,一分钟的事。按文档走:Telegram找BotFather创建机器人,Anthropic申请API密钥,Tavily申请搜索API密钥。把WiFi信息、两个密钥填进主头文件,编译,刷机。
听起来顺滑,实际踩了三个坑。Python环境隔离没做好,ESP-IDF和系统Python冲突;WebSocket组件版本不匹配,编译报错指向无关文件;最后发现是某依赖库更新导致的接口变动。排错花了一个多小时。
从拆快递到收到第一条Telegram消息,全程约两小时。固件刷进去的瞬间,ESP32-S3连上WiFi,我的手机和Mac同时弹出通知——那种跨设备同步的即时感,意外得有点不真实。
终端监控窗口里滚动着PSRAM、SPIFFS、内部内存的分配信息,最后一行是:"Agent loop initialized." 代理循环已启动。888KB固件里,一个能自主决策的循环开始运转了。
功能实测:它到底能做什么
第一条测试消息用中文发的。MimiClaw的回复让我愣了一下——不是机器翻译的僵硬感,是完整理解上下文后的组织语言。后来看代码才知道,它直接调用Anthropic的Claude 3.5 Sonnet,云端算力扛下了理解生成的重担。
本地设备只做三件事:网络连接、状态管理、API调度。这种架构被叫做"边缘代理"——终端足够轻,核心能力上云,中间用最小化的固件桥接。
我测了三个场景。第一个是即时问答:"今天北京天气",Tavily搜索API返回结果,Claude提炼成自然语言回复,全程约3秒。第二个是记忆测试:先告诉它"我下周三要见客户",再问"我下周有什么安排"——它从SPIFFS文件系统里调出了之前的记录。
第三个是定时任务:"明早8点提醒我开会"。ESP32-S3的内置RTC(实时时钟)模块接管了计时,到点推送Telegram消息。这三个功能叠加,基本覆盖了手机语音助手80%的日常场景。
但限制也很明显。每次对话都是独立API调用,没有真正的"会话状态"在本地维持。如果断网,它变成一块发光的砖头。记忆功能依赖文件系统读写,频繁操作会损耗Flash寿命——ESP32-S3的Flash典型擦写次数是10万次,对极客玩具够用,对生产力工具是隐患。
技术拆解:888KB里藏了什么
MimiClaw的代码结构值得细品。核心是一个事件循环:Telegram消息触发→解析意图→调用对应工具→格式化回复。工具集目前包括搜索、记忆、定时器三类,每个工具都是独立的C模块,通过函数指针注册进代理核心。
这种设计和LangChain、AutoGPT等Python框架思路一致,但实现极度精简。没有JSON序列化的开销,没有Python运行时的内存膨胀,裸机C代码直接操作硬件寄存器。888KB里,WiFi协议栈占了大头,实际业务逻辑可能不到200KB。
PSRAM(伪静态随机存储器)是关键。ESP32-S3最大支持8MB PSRAM,MimiClaw用它来缓存HTTP响应和临时计算。没有这块外扩内存,TCP/IP栈加上TLS加密就能吃光片上RAM。
功耗数据我没仪器测,但ESP32-S3标称工作电流约240mA@3.3V。持续联网状态下,一块2000mAh的锂电池能撑一整天。对比树莓派Zero 2W的待机功耗,这是数量级的优势——也是它能"随身带"的物理基础。
zclaw的原版OpenClaw更极端:用更老的ESP32(非S3型号),512KB RAM,没有PSRAM,靠极度裁剪的HTTP客户端和简化的JSON解析器硬跑。MimiClaw算是"豪华版",但核心哲学没变:证明AI代理不需要被云厂商的硬件规格绑架。
行业语境:为什么这事值得关注
2024年的AI硬件赛道,两极分化严重。一边是Rabbit R1、Humane Pin这种300美元以上的"AI原生设备",卖概念、卖设计、卖发布会;另一边是手机厂商把大模型塞进旗舰机,算力冗余、功耗爆炸、实际调用率存疑。
MimiClaw的位置很微妙。它不具备商业产品的完成度,但戳破了一个叙事陷阱:AI代理不一定需要本地算力。只要网络延迟可接受,10美元的MCU(微控制器单元)+云端API,体验能追上中端手机。
这对智能家居、工业传感器、可穿戴设备有启发。现在的智能音箱为什么笨?不是因为麦克风不好,是因为本地没决策能力,云端响应又慢。如果每个灯泡、每个插座里都能跑一个MimiClaw级别的代理,用自然语言直接调度,"智能家居"才可能摆脱App遥控器的尴尬。
风险也在这里。Anthropic API按token计费,Claude 3.5 Sonnet输入3美元/百万token,输出15美元。我测了一下午,账单涨了0.47美元。如果设备24小时在线、频繁唤醒,月度成本可能超过硬件本身。MimiClaw目前没做本地唤醒词检测,每次交互都走云端,这个架构对规模化部署不友好。
另一个隐患是供应商锁定。代码里Anthropic和Tavily的API地址写死,换模型要改源码重编译。OpenAI、Google的适配不是不能做,但项目目前只维护这两家。对极客没问题,对想"开箱即用"的用户是门槛。
谁该玩这个,谁该绕道
如果你符合以下画像,MimiClaw值得一个周末:有ESP32开发经验,想理解AI代理的最小可行实现,愿意折腾固件和API密钥,对"自己的设备自己掌控"有执念。它能教会你的比读十篇架构论文更直观——什么叫事件循环,怎么做工具调用,为什么状态管理在资源受限环境下是噩梦。
如果你想要的是Siri的替代品,现在还不是时候。没有语音输入(得自己接麦克风模块),没有多轮对话的上下文保持,没有离线能力。Telegram作为交互界面,对国内用户还有网络门槛。
但项目的发展方向有意思。GitHub Issues里有人在讨论:本地唤醒词用TensorFlow Lite Micro实现,断网时用更小的大模型(比如Phi-2量化版)做降级,用MQTT替代HTTP降低功耗。这些都不是空想,ESP32-S3的算力勉强能跑1B级别的模型——体验会差,但"能用"和"完全不能用"是质变。
我刷完固件后,把这块板子接了个小电池扔抽屉里。它现在每天早上8点准时发消息:"记得喝水"——我三天前随口设的提醒,它还在执行。没有订阅费,没有隐私协议要同意,没有"您的数据可能被用于改进服务"的弹窗。
这种粗糙的、自己搭出来的可靠性,和手机厂商精心调教的"智能"是两种东西。一种像野生植物,一种像温室花卉。野生植物可能枯死,也可能在意外的地方扎根。
如果明年这个时候,10美元的开发板能本地跑7B模型、能听懂方言、能续航一周——你会把家里的智能音箱换掉吗?
热门跟贴