烧了1600万token，我用小米Mimo V2.5让三个AI模型替我打工|agent|ai模型|python|token|代码|小米mimo|编程|自然语言

大家好，我是刀哥。做过大厂研发、做过出海硬件，现在深耕AI编程和AI工具。

假期我干了一件有意思的事：用小米的免费Mimo V2.5模型，从零造了一个AI Agent。不套壳，不调API，是真的从第一行代码开始，让三个不同公司的AI模型——GPT-5.5、Gemini 3.1、Claude Opus 4.7——在同一个程序里替我打工。

整个过程烧了1600万token。什么概念？大约等于让AI读了18套《三体》全集，或者写了5000篇公众号文章。（小米这波确实很大方，百万亿 Token 创造者激励计划，给了我两亿Token）

今天就用大白话，给大家讲讲这个项目是怎么回事，以及——三个AI模型到底谁更能打。

一、AI Agent到底是什么？

你用过Claude Code写代码、用过OpenClaw做自动化任务吧？这些工具的底层，其实就是一个Agent Harness——你可以理解成"AI打工人的工位"。

（梦中情位，这个龙虾的办公室真的好！）

工位上有什么？四样东西：

大脑：大语言模型（GPT、Claude、Gemini）
：能执行命令、读写文件、搜索代码
笔记本：记录之前的对话，防止AI失忆
安全锁：防止AI乱删文件、乱跑危险命令

我做的mini harness，就是把这四样东西组装起来，1000行Python代码，一个完整的AI打工人就上线了。（公众号后台回复【harness】，获取完整代码包）

二、为什么不用现成的框架？

市面上Agent框架一大堆——LangChain、AutoGen、CrewAI……但你真去看代码，动辄几万行，光依赖就有几十个包。你想搞明白"AI是怎么执行一条命令的"，光跳转文件就能把你绕晕。

mini harness的理念就一句话：删掉任何一行代码，程序就崩。

没有花里胡哨的抽象层，没有绕来绕去的继承链。1000行Python就是全部，每一行都load-bearing。

(架构图很简洁，只有6个模块，缺一不可)

# 就这么简单
pip install openai
python3 -m harness.cli "帮我数一下harness目录下有多少行Python代码"
python3 -m harness.cli --model opus-4.7 "帮我数一下harness目录下有多少行Python代码"
python3 -m harness.cli --model gemini-3.1 "帮我数一下harness目录下有多少行Python代码"

一个依赖，一条命令，切换模型时指定清楚模型代号，AI打工人就活了。

三、三个模型大乱斗：谁更能打？

这才是最好玩的部分。同一个任务，我分别用GPT-5.5、Gemini 3.1 Pro、Claude Opus 4.7跑了一遍，结果差距非常明显。

首先，我们需要能用同一个SDK，支持这三个大模型，怎么做呢？

1 注册一个类似openrouter、硅基流动这种new-api聚合网站，拿到key

2 使用openai的sdk，整个过程是这样的

  你的代码 (OpenAI格式) → new-api → 转换 → Claude/Gemini 原生 API

   它做的事：
  1. 收到 OpenAI 格式的请求（/v1/chat/completions，messages 结构，function calling 协议）
  2. 根据模型名匹配到对应的 channel
  3. 转换成目标 API 的原生格式（Anthropic 的 /v1/messages、Google 的 generateContent）
  4. 拿到响应后再转回 OpenAI 格式返回给你

   所以你的代码只需要用 OpenAI SDK + 改模型名，协议转换全由网关完成。这也是为什么 base_url 指向的是 openrouter/new-api 地址而不是 api.openai.com。

测试任务1：列出当前目录文件并统计大小

GPT-5.5：直接执行ls -la，一步到位，输出清晰。稳。

Gemini 3.1 Pro：它想用find . -maxdepth 1 -type f -printf '%f\t%s bytes\n'——这是Linux专用的命令，在macOS上根本跑不通。结果返回空，它还一本正经地告诉用户"当前目录下没有文件"。翻车。

Claude Opus 4.7：看到系统提示是macOS，直接用ls -alh，输出带人类可读的文件大小。最懂用户意图。

小结：Claude最聪明，GPT最稳，Gemini在这个场景下翻车了。

当然，倒腾一下，把命令弄得更准确，大家都是可以完成这个小任务的：

三个模型都能完成，但风格差异很大：

GPT-5.5：像百科全书，条理清晰，但有点"教科书味"
Gemini 3.1 Pro：回答最简洁，但偶尔会遗漏关键细节
Claude Opus 4.7：最有"人味"，会主动指出设计上的取舍和潜在问题

测试任务3：写一个文件读取工具

这是个稍微复杂的任务——要处理路径安全、行号显示、超长文件截断。

三个模型都能生成可运行的代码，但只有Claude主动加了路径逃逸检测（防止AI通过../../etc/passwd读取系统文件）。GPT和Gemini都需要我额外提示才会加上。

综合评价：

Claude Opus 4.7：最强，理解意图最深，安全意识最好，适合复杂任务
GPT-5.5：最稳，中规中矩，很少犯错但也很少给你惊喜
Gemini 3.1 Pro：速度最快，成本最低，但容易在细节上翻车

四、AI打工人也有"安全锁"

这是很多人担心的问题：让AI执行命令，万一它把我的文件删了怎么办？

mini harness搞了三层防护：

白名单：ls、cat、grep这种"只看不动"的命令，随便跑。

黑名单：rm、shutdown、dd这种"核弹级"命令，直接拒绝，求都不行。

灰名单：其他命令，弹一个确认框问你"要不要跑？"。你说了算。

用大白话说就是：AI能帮你干活，但钥匙在你手里。

五、AI也会失忆，怎么办？

这是Agent最头疼的问题。你跟AI聊了50轮，context越来越大，迟早会爆——要么超出模型的上下文限制，要么token费用爆炸。

mini harness的解决方案很直觉：老的忘掉，新的记住。

就像你的大脑一样——你不会记得上周三中午吃了什么，但你会记得今天的待办事项。AI也是一样，自动把很久以前的对话"压缩"掉，只保留最近的关键信息和你的原始任务。

这个功能在跑长任务的时候特别关键。我有一次让AI连续执行了20多个文件操作，如果没有自动压缩，token早就爆了。

六、1600万token花在哪了？

说实话，大部分token都花在调试上了。

用AI写代码有个特点：它写得快，但不一定写得对。你需要反复跟它说"这里不对，应该这样改"，每一轮对话都在烧token。

1600万token的大头花在三个地方：

1.架构设计：让AI理解"我要做一个最小但完整的Agent Harness"，这个意图的传达就烧了不少token。AI一开始总是想给你加各种花里胡哨的功能，你得反复跟它说"不要，就要最小的"。
2.边界情况处理：macOS和Linux的命令差异、路径安全检测、token估算精度……这些细节每一个都要好几轮对话才能调对。
3.三个模型的对比测试：同一个任务跑三遍，每遍都是独立的token消耗。但这个过程最有价值——你真的能看出模型之间的差距。

七、小米Mimo V2.5表现怎么样？

这次开发全程用的小米Mimo V2.5作为编码助手（不是被测的三个模型，是帮我写代码的那个）。

说几个让我印象深刻的点：

理解意图很快。我说"错误要结构化，要给LLM行动建议"，它立刻理解了，给出的方案直接能用。不需要反复解释。

对设计模式有感觉。像compaction策略、approval gate这类需要架构判断的模块，它给出的方案质量很高，不是那种"能跑就行"的水平。

中文交流零障碍。跟它讨论技术方案全用中文，它不会像某些模型一样突然切换到英文。

当然也有不足：在处理一些非常新的API（比如OpenAI的最新tool_call格式）时，偶尔会给出过时的写法。但总体来说，作为编码助手完全够用。

八、这东西对普通人有什么用？

你可能会问：我又不会写代码，这玩意儿跟我有什么关系？

关系大了。

你想想——Claude Code、OpenClaw、悟空桌面版，这些你天天在用的AI工具，它们的底层就是我做的这种Agent Harness。理解了Harness，你就理解了所有AI Agent工具的底层逻辑。

以后再有人跟你说"AI会自己执行命令，太危险了"，你就可以告诉他：有白名单、黑名单、人工审批三道锁，AI跑不了危险命令。