打开网易新闻 查看精彩图片

你敢信吗?一个AI系统,没人给它重新训练模型,没人帮它改一行代码,居然在六周内把自己的准确率从25%干到了86%!

OpenAI这次干的事,细思极恐——AI自我进化,已经在真实生产环境里跑起来了!

最近,OpenAI悄悄放出了一个重磅消息:他们和Thrive Holdings联合打造的Tax AI报税系统,在没有人工干预模型和代码的情况下,六周内准确率飙升三倍。

更炸裂的是,这个系统还能自己定位bug、写修复方案、跑测试,甚至生成PR让人类工程师审核。这不是科幻电影,而是正在发生的现实。

先讲个真实的故事:去年,Crete会计师联盟的一位资深会计师,花了整整180小时才准备好客户的税表。今年,同样的工作量,Tax AI只用15小时就搞定了!

省下来的时间,她居然能逐一给客户打电话讲解报税细节,还能开拓新客户。整个报税季,Tax AI处理了7000份税表,准确率最高达97%,产能直接提升了50%。

但最让人震惊的不是这些数字,而是它的增长曲线——六周前连K-1表格都搞不定,六周后字段完成准确率从25%飙到86%,而且还在加速变强!

Tax AI的背后,是OpenAI和Thrive Holdings半年的深度合作。去年12月,OpenAI入股Thrive Holdings后,直接把工程团队派到会计师的办公桌旁,看着真实的税表、客户数据和报错,一起打磨系统。

传统AI产品改进要经过上线、bug、投诉、排查、改代码、部署,每一步都卡着人,循环慢得要死。但Tax AI用三招就把大部分环节自动化了,让系统自己越用越强。

第一招,把从业者的每一次纠错变成结构化数据。会计师审核Tax AI的输出时,每改一个字段,系统都会记录三件事:AI预测了什么、会计师改成了什么、最终报税用了什么。这些修改不是终点,而是AI改进的起点。

第三招,用Codex把发现变成修复。当系统发现某类错误反复出现,比如总是漏掉租赁房产的“公平出租天数”字段,就会把这个pattern打包成明确任务扔给Codex。

Codex拿到完整的生产trace、出错样本、期望输出和测试集后,自己检查逻辑、写修复方案、跑验证,甚至生成PR等人类review。如果证据模糊,任务会路由回产品团队,不会硬来。

效果有多好?租赁房产相关字段处理,从几乎不可用到90%的精确率和召回率,只用了六周!而且这六周积累的能力,让后续支持Schedule C和Schedule A变得更快。

系统越用,能处理的问题越复杂;越复杂的问题被解决,省下来的人工时间越多——这是一条加速曲线!

其实,Tax AI不是孤例。今年2月,OpenAI发布GPT-5.3-Codex时就说,这是第一个在创造自身过程中发挥关键作用的模型,团队用它调试训练流程、管理部署、诊断测试结果。

4月,OpenAI开源了Symphony,把Codex和Linear项目管理工具连起来,监控issue tracker,给每个ticket分配Agent工作空间,Agent自己干活、跑CI、生成PR,工程师只负责review。内部用了之后,部分团队的工程产出直接翻倍。

同样是4月,ICLR 2026在里约专门办了“AI递归自我改进”的workshop。5月,MOSS研究让Agent直接改写自己的源代码,在无人干预的周期内,四个任务的平均评分从0.25拉到0.61。

这里有个关键区别:过去谈AI进化,都是fine-tuning、RLHF、改模型权重,需要海量数据、GPU和专业团队,门槛极高。

但OpenAI现在展示的路完全不同——模型权重纹丝不动,改的是模型周围的一切:提取逻辑、映射规则、eval标准、工作流配置,甚至Agent自己的代码。

就像引擎不变,改底盘调悬挂也能让车跑得更快。这样一来,自我改进的门槛被大幅拉低,只要设计好eval体系、留好生产trace、让强coding agent跑“发现→定位→修复→验证”闭环就行。

回到Tax AI,表面看是AI帮人报税,换个大模型似乎也能干,但底层的自我改进闭环才是核心壁垒。

更有意思的是,Tax AI的IP归Thrive Holdings所有,OpenAI派了半年工程师却没留IP——这在硅谷大厂合作里极其罕见。OpenAI图什么?答案在增长曲线里。

每处理一份税表,每收到一次纠正,系统就多一份改进证据,飞轮转起来后,OpenAI拿到了完整的Agent自我进化范式。

这套可复制的方法论,才是真正的战略资产。现在Thrive Holdings已经把闭环复制到记账、审计、IT运维。

打开网易新闻 查看精彩图片

另一边,Anthropic也没闲着,他们的Conway平台用Memory Files持久记忆加Dreams异步整合,给Agent装了“永久大脑”,让它能自我维护、进化。

两条路线殊途同归,都是赌Agent能从“一次性工具”变成“越用越强的系统”。

在通往通用人工智能的路上,模型智能只是起点,真正的终局是系统智能——一个能从环境中持续学习、进化、变强的整体。

你觉得AI自我进化会给你的工作带来什么变化?是被取代还是效率翻倍?评论区聊聊你的看法!觉得这篇内容有启发的,别忘了点赞收藏转发,让更多人看到AI的未来趋势!