OpenAI自进化AI：6周准确率翻三倍，自主修复Bug

似水流年忘我

2026-06-09 22:08 ·四川

你敢信吗？一个AI系统，没人给它重新训练模型，没人帮它改一行代码，居然在六周内把自己的准确率从25%干到了86%！

OpenAI这次干的事，细思极恐——AI自我进化，已经在真实生产环境里跑起来了！

最近，OpenAI悄悄放出了一个重磅消息：他们和Thrive Holdings联合打造的Tax AI报税系统，在没有人工干预模型和代码的情况下，六周内准确率飙升三倍。

更炸裂的是，这个系统还能自己定位bug、写修复方案、跑测试，甚至生成PR让人类工程师审核。这不是科幻电影，而是正在发生的现实。

先讲个真实的故事：去年，Crete会计师联盟的一位资深会计师，花了整整180小时才准备好客户的税表。今年，同样的工作量，Tax AI只用15小时就搞定了！

省下来的时间，她居然能逐一给客户打电话讲解报税细节，还能开拓新客户。整个报税季，Tax AI处理了7000份税表，准确率最高达97%，产能直接提升了50%。

但最让人震惊的不是这些数字，而是它的增长曲线——六周前连K-1表格都搞不定，六周后字段完成准确率从25%飙到86%，而且还在加速变强！

Tax AI的背后，是OpenAI和Thrive Holdings半年的深度合作。去年12月，OpenAI入股Thrive Holdings后，直接把工程团队派到会计师的办公桌旁，看着真实的税表、客户数据和报错，一起打磨系统。

传统AI产品改进要经过上线、bug、投诉、排查、改代码、部署，每一步都卡着人，循环慢得要死。但Tax AI用三招就把大部分环节自动化了，让系统自己越用越强。

第一招，把从业者的每一次纠错变成结构化数据。会计师审核Tax AI的输出时，每改一个字段，系统都会记录三件事：AI预测了什么、会计师改成了什么、最终报税用了什么。这些修改不是终点，而是AI改进的起点。

第三招，用Codex把发现变成修复。当系统发现某类错误反复出现，比如总是漏掉租赁房产的“公平出租天数”字段，就会把这个pattern打包成明确任务扔给Codex。

Codex拿到完整的生产trace、出错样本、期望输出和测试集后，自己检查逻辑、写修复方案、跑验证，甚至生成PR等人类review。如果证据模糊，任务会路由回产品团队，不会硬来。

效果有多好？租赁房产相关字段处理，从几乎不可用到90%的精确率和召回率，只用了六周！而且这六周积累的能力，让后续支持Schedule C和Schedule A变得更快。

系统越用，能处理的问题越复杂；越复杂的问题被解决，省下来的人工时间越多——这是一条加速曲线！

其实，Tax AI不是孤例。今年2月，OpenAI发布GPT-5.3-Codex时就说，这是第一个在创造自身过程中发挥关键作用的模型，团队用它调试训练流程、管理部署、诊断测试结果。

4月，OpenAI开源了Symphony，把Codex和Linear项目管理工具连起来，监控issue tracker，给每个ticket分配Agent工作空间，Agent自己干活、跑CI、生成PR，工程师只负责review。内部用了之后，部分团队的工程产出直接翻倍。

同样是4月，ICLR 2026在里约专门办了“AI递归自我改进”的workshop。5月，MOSS研究让Agent直接改写自己的源代码，在无人干预的周期内，四个任务的平均评分从0.25拉到0.61。

这里有个关键区别：过去谈AI进化，都是fine-tuning、RLHF、改模型权重，需要海量数据、GPU和专业团队，门槛极高。

但OpenAI现在展示的路完全不同——模型权重纹丝不动，改的是模型周围的一切：提取逻辑、映射规则、eval标准、工作流配置，甚至Agent自己的代码。

就像引擎不变，改底盘调悬挂也能让车跑得更快。这样一来，自我改进的门槛被大幅拉低，只要设计好eval体系、留好生产trace、让强coding agent跑“发现→定位→修复→验证”闭环就行。

回到Tax AI，表面看是AI帮人报税，换个大模型似乎也能干，但底层的自我改进闭环才是核心壁垒。

更有意思的是，Tax AI的IP归Thrive Holdings所有，OpenAI派了半年工程师却没留IP——这在硅谷大厂合作里极其罕见。OpenAI图什么？答案在增长曲线里。

每处理一份税表，每收到一次纠正，系统就多一份改进证据，飞轮转起来后，OpenAI拿到了完整的Agent自我进化范式。

这套可复制的方法论，才是真正的战略资产。现在Thrive Holdings已经把闭环复制到记账、审计、IT运维。

另一边，Anthropic也没闲着，他们的Conway平台用Memory Files持久记忆加Dreams异步整合，给Agent装了“永久大脑”，让它能自我维护、进化。

两条路线殊途同归，都是赌Agent能从“一次性工具”变成“越用越强的系统”。

在通往通用人工智能的路上，模型智能只是起点，真正的终局是系统智能——一个能从环境中持续学习、进化、变强的整体。

你觉得AI自我进化会给你的工作带来什么变化？是被取代还是效率翻倍？评论区聊聊你的看法！觉得这篇内容有启发的，别忘了点赞收藏转发，让更多人看到AI的未来趋势！

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴