大家好,我是刀哥。做过大厂研发、做过出海硬件,现在深耕AI编程和AI工具。

假期我干了一件有意思的事:用小米的免费Mimo V2.5模型,从零造了一个AI Agent。不套壳,不调API,是真的从第一行代码开始,让三个不同公司的AI模型——GPT-5.5、Gemini 3.1、Claude Opus 4.7——在同一个程序里替我打工。

打开网易新闻 查看精彩图片

整个过程烧了1600万token。什么概念?大约等于让AI读了18套《三体》全集,或者写了5000篇公众号文章。(小米这波确实很大方,百万亿 Token 创造者激励计划,给了我两亿Token)

打开网易新闻 查看精彩图片

今天就用大白话,给大家讲讲这个项目是怎么回事,以及——三个AI模型到底谁更能打

一、AI Agent到底是什么?

你用过Claude Code写代码、用过OpenClaw做自动化任务吧?这些工具的底层,其实就是一个Agent Harness——你可以理解成"AI打工人的工位"。

打开网易新闻 查看精彩图片

(梦中情位,这个龙虾的办公室真的好!)

工位上有什么?四样东西:

  • 大脑:大语言模型(GPT、Claude、Gemini)
  • :能执行命令、读写文件、搜索代码
  • 笔记本:记录之前的对话,防止AI失忆
  • 安全锁:防止AI乱删文件、乱跑危险命令

我做的mini harness,就是把这四样东西组装起来,1000行Python代码,一个完整的AI打工人就上线了。(公众号后台回复【harness】,获取完整代码包)

二、为什么不用现成的框架?

市面上Agent框架一大堆——LangChain、AutoGen、CrewAI……但你真去看代码,动辄几万行,光依赖就有几十个包。你想搞明白"AI是怎么执行一条命令的",光跳转文件就能把你绕晕。

mini harness的理念就一句话:删掉任何一行代码,程序就崩

没有花里胡哨的抽象层,没有绕来绕去的继承链。1000行Python就是全部,每一行都load-bearing。

打开网易新闻 查看精彩图片

(架构图很简洁,只有6个模块,缺一不可)

打开网易新闻 查看精彩图片
# 就这么简单
pip install openai
python3 -m harness.cli "帮我数一下harness目录下有多少行Python代码"
python3 -m harness.cli --model opus-4.7 "帮我数一下harness目录下有多少行Python代码"
python3 -m harness.cli --model gemini-3.1 "帮我数一下harness目录下有多少行Python代码"
打开网易新闻 查看精彩图片

一个依赖,一条命令,切换模型时指定清楚模型代号,AI打工人就活了。

三、三个模型大乱斗:谁更能打?

这才是最好玩的部分。同一个任务,我分别用GPT-5.5、Gemini 3.1 Pro、Claude Opus 4.7跑了一遍,结果差距非常明显。

首先,我们需要能用同一个SDK,支持这三个大模型,怎么做呢?

1 注册一个类似openrouter、硅基流动这种new-api聚合网站,拿到key

2 使用openai的sdk,整个过程是这样的

  你的代码 (OpenAI格式) → new-api → 转换 → Claude/Gemini 原生 API

它做的事:
1. 收到 OpenAI 格式的请求(/v1/chat/completions,messages 结构,function calling 协议)
2. 根据模型名匹配到对应的 channel
3. 转换成目标 API 的原生格式(Anthropic 的 /v1/messages、Google 的 generateContent)
4. 拿到响应后再转回 OpenAI 格式返回给你

所以你的代码只需要用 OpenAI SDK + 改模型名,协议转换全由网关完成。这也是为什么 base_url 指向的是 openrouter/new-api 地址而不是 api.openai.com。
测试任务1:列出当前目录文件并统计大小

GPT-5.5:直接执行ls -la,一步到位,输出清晰。稳。

Gemini 3.1 Pro:它想用find . -maxdepth 1 -type f -printf '%f\t%s bytes\n'——这是Linux专用的命令,在macOS上根本跑不通。结果返回空,它还一本正经地告诉用户"当前目录下没有文件"。翻车。

Claude Opus 4.7:看到系统提示是macOS,直接用ls -alh,输出带人类可读的文件大小。最懂用户意图。

小结:Claude最聪明,GPT最稳,Gemini在这个场景下翻车了。

当然,倒腾一下,把命令弄得更准确,大家都是可以完成这个小任务的:

测试任务2:读代码并解释功能
打开网易新闻 查看精彩图片
测试任务2:读代码并解释功能

三个模型都能完成,但风格差异很大:

  • GPT-5.5:像百科全书,条理清晰,但有点"教科书味"
  • Gemini 3.1 Pro:回答最简洁,但偶尔会遗漏关键细节
  • Claude Opus 4.7:最有"人味",会主动指出设计上的取舍和潜在问题
测试任务3:写一个文件读取工具

这是个稍微复杂的任务——要处理路径安全、行号显示、超长文件截断。

三个模型都能生成可运行的代码,但只有Claude主动加了路径逃逸检测(防止AI通过../../etc/passwd读取系统文件)。GPT和Gemini都需要我额外提示才会加上。

综合评价

  • Claude Opus 4.7:最强,理解意图最深,安全意识最好,适合复杂任务
  • GPT-5.5:最稳,中规中矩,很少犯错但也很少给你惊喜
  • Gemini 3.1 Pro:速度最快,成本最低,但容易在细节上翻车
四、AI打工人也有"安全锁"

这是很多人担心的问题:让AI执行命令,万一它把我的文件删了怎么办?

mini harness搞了三层防护:

白名单:ls、cat、grep这种"只看不动"的命令,随便跑。

黑名单:rm、shutdown、dd这种"核弹级"命令,直接拒绝,求都不行。

灰名单:其他命令,弹一个确认框问你"要不要跑?"。你说了算。

用大白话说就是:AI能帮你干活,但钥匙在你手里

五、AI也会失忆,怎么办?

这是Agent最头疼的问题。你跟AI聊了50轮,context越来越大,迟早会爆——要么超出模型的上下文限制,要么token费用爆炸。

mini harness的解决方案很直觉:老的忘掉,新的记住

就像你的大脑一样——你不会记得上周三中午吃了什么,但你会记得今天的待办事项。AI也是一样,自动把很久以前的对话"压缩"掉,只保留最近的关键信息和你的原始任务。

这个功能在跑长任务的时候特别关键。我有一次让AI连续执行了20多个文件操作,如果没有自动压缩,token早就爆了。

六、1600万token花在哪了?

说实话,大部分token都花在调试上了。

用AI写代码有个特点:它写得快,但不一定写得对。你需要反复跟它说"这里不对,应该这样改",每一轮对话都在烧token。

1600万token的大头花在三个地方:

  1. 1.架构设计:让AI理解"我要做一个最小但完整的Agent Harness",这个意图的传达就烧了不少token。AI一开始总是想给你加各种花里胡哨的功能,你得反复跟它说"不要,就要最小的"。
  2. 2.边界情况处理:macOS和Linux的命令差异、路径安全检测、token估算精度……这些细节每一个都要好几轮对话才能调对。
  3. 3.三个模型的对比测试:同一个任务跑三遍,每遍都是独立的token消耗。但这个过程最有价值——你真的能看出模型之间的差距。
七、小米Mimo V2.5表现怎么样?

这次开发全程用的小米Mimo V2.5作为编码助手(不是被测的三个模型,是帮我写代码的那个)。

说几个让我印象深刻的点:

理解意图很快。我说"错误要结构化,要给LLM行动建议",它立刻理解了,给出的方案直接能用。不需要反复解释。

对设计模式有感觉。像compaction策略、approval gate这类需要架构判断的模块,它给出的方案质量很高,不是那种"能跑就行"的水平。

中文交流零障碍。跟它讨论技术方案全用中文,它不会像某些模型一样突然切换到英文。

当然也有不足:在处理一些非常新的API(比如OpenAI的最新tool_call格式)时,偶尔会给出过时的写法。但总体来说,作为编码助手完全够用。

八、这东西对普通人有什么用?

你可能会问:我又不会写代码,这玩意儿跟我有什么关系?

关系大了。

你想想——Claude Code、OpenClaw、悟空桌面版,这些你天天在用的AI工具,它们的底层就是我做的这种Agent Harness。理解了Harness,你就理解了所有AI Agent工具的底层逻辑

以后再有人跟你说"AI会自己执行命令,太危险了",你就可以告诉他:有白名单、黑名单、人工审批三道锁,AI跑不了危险命令。

以后再有人跟你说"AI聊多了会忘",你就可以告诉他:有自动压缩机制,老的忘掉新的记住,不会失忆。

以后再有人跟你说"用GPT还是Claude都一样",你就可以告诉他:完全不一样,Claude安全意识最强,GPT最稳,Gemini容易翻车。

这些认知,不需要你会写代码。

后记

做这个项目最大的收获,不是那1000行代码,而是对AI Agent的直觉

以前用Claude Code、OpenClaw这些工具,觉得它们是黑盒——好用,但不知道为什么好用。现在自己撸了一个,才知道每一步背后都有设计取舍。

烧了1600万token,值不值?我觉得值。这1600万token不只是在写代码,更是在跟三个不同公司的AI模型深度交流。你真的能感受到它们各自的性格——Claude像个严谨的工程师,GPT像个靠谱的执行者,Gemini像个聪明但偶尔粗心的实习生。

如果你也对AI Agent感兴趣,不管是程序员还是普通用户,建议去了解一下这些工具的底层原理。不需要自己写代码,但至少知道它在干什么、为什么有时候会翻车。

这会让你在AI时代,用得更明白。

下期预告:我打算把mini harness接入了钉钉机器人,让三个模型轮流值班当电商的AI客服,看看谁被用户投诉最多,敬请期待!

#MiMo-V2.5 #AI工具对比 #编程助手 #MimoV25

创作不易,如果这篇对你有帮助,请多多支持!我们下期见!我是刀哥。做过大厂研发、做过出海硬件,现在挖掘AI圈一手更新,深耕 AI 设计、AI 编程。