全文3,000字 | 阅读约20 分钟
你上传一张笔记本上的手写内容,它会:
✅ 判断图像方向
✅ 自动旋转调整
✅ 放大笔迹区域
✅ 最后读出文字内容并转化成结构化答复
——整个过程只需要 20 秒。
这就是中 OpenAI 文最新发布的 o3 和 o4-mini 正在做的事情。
相比你熟悉的 GPT-4,它们不是“会看图”,而是“能带图思考”。
中 OpenAI 文官方在介绍中 o3 能力时,列出了这样一组典型用例:
你正在阅读我们深度解读文章。
我们不讲“最新模型参数”, 我们只关心一件事: 这个能力,如何让你个人和组织“干得更好”?
这四个看似简单的需求,其实背后都藏着一个通用的认知挑战:
AI 不只是要“识别”,而是要能“理解 + 判断 + 操作”。
而在“Read handwriting”这个最基础却最常见的使用场景里, 中 o3 就交出了一张“全自动认知”的答案。
上图示例:上传了一张倒置的纸质笔记图像,模型自动执行:
识别方向 → 旋转图像 → 放大手写区 → 解读内容 → 结构化输出
最终结果是:"4th February – finish roadmap."
第一节|视觉推理到底有多强?数据说话
GPT-4 是强,但 o3 和 o4-mini ,是“进了实验室的超级体”。 这次发布,不只是升级,而是直接刷新了全行业多模态性能榜单。
我们从中 OpenAI 文放出的内部测试结果中,选取了几组关键指标,它们清晰展示了——
有时候,一组图,比一堆术语更有说服力。
OpenAI 这次放出的o3 和 o4-mini 文测试成绩,几乎是“全场开挂”。
我们拆解了四组核心能力图表,让你一眼看出这次有多猛。
图①:数学与科学能力
你可能没听说过这些缩写,简单说:
AIME 是美国高中数学竞赛,能拿 90 分已经是数学天才级;
GPQA 是博士级别科学难题,代表 AI 是否“理解概念结构”;
Humanity’s Last Exam 是“跨学科综合问答”,涉及哲学、语言、自然科学……
结果呢?
o4-mini :
✔️ AIME 得分高达 93.4%,可以吊打清北大部分理科生
✔️ Humanity’s Last Exam 达到 26.6% 正确率,已经接近 DeepMind 特调模型
这不是“会答题”,这是“能考试”的 AI。
图②:看图解题,这次终于不是噱头了
(MMMU / MathVista / CharXiv 图像推理图)
在大学级视觉问题 MMMU 上,准确率高达 82.9%;
在数学图像任务 MathVista,达到 86.8%;
在科学图表推理 CharXiv,从 GPT-4 的 55.1%,提升到 o3 的 78.6%
以前,大模型看图像常常“牛头不对马嘴”。
现在,它真的能“看图——想一想——答上来”了。
图③:在代码世界里,它比很多打工人还稳
(SWE-Lancer / SWE-Bench / Aider Polyglot图)
在真实 freelance 项目任务上,o3-high 完成的项目价值高达 $65,250 美元
在 SWE-Bench 的工程编程评测中,准确率超过 69%,不是玩票,是能“交付”的程度
它不再只是“写段代码玩玩”,而是懂上下文、能 debug、能改的代码合作者。
图④:指令理解与工具调用能力
(MultiChallenge / BrowseComp / Tau-bench图)
多轮对话中,它能准确理解复杂指令,比 o1 准确率高出十几个百分点;
在网页搜索、函数调用等多步骤任务中,它能自己规划步骤、选择路径,并给出完整结果。
这不是回答问题,这是一整套解决问题的流程能力。
✅ 小结:
o3 和 o4-mini 不是更聪明的语言模型,而是更“像人”的问题解决者。✍️ 第二节|从会看图,到能“用图思考”
过去,AI 看图的能力,往往止步于“识别”:
这是一张图
图里有一只猫
这段文字可能是“hello world”
但这一次,AI 不止是看懂图——而是把图像纳入整个“思考链条”中。
案例一:上传一张倒着的笔记图,AI 自己调整方向并提取结论
用户提问:“帮我看看这张笔记本上写了什么?”
这张图是倒置拍摄、角度歪斜,文字模糊不清。
而 AI 是这样一步步处理的:
检测图像方向 → 自动识别为倒置
旋转图像 → 进行区域裁剪
放大局部区域 → 提取手写文字内容
最终输出结构化结论
AI 输出: “4th February – finish roadmap.”
这一过程的关键不是 OCR(文字识别),而是图像+推理+操作链条的组合:
不是“看清楚”文字,而是“为了理解内容、主动操作图像”
不需要你告诉它“请旋转”,它自己判断该不该转、怎么转
在图像模糊不清时,也能通过多步骤放大 + 定位 + 推理,提取关键信息
这不是“识别图像”,而是“和图像一起思考”(Thinking with images)。
多模态推理的本质突破是什么?
一句话:AI 不再等你“结构化输入”,它能自己把非结构化变成结构化。
你拍一张教科书的图,它能解题;
你拍一张会议白板,它能总结要点;
你拍一组流程图,它能拆解成操作步骤。
✅ 小结:
“带图思考”让 AI 第一次成为真正的认知助手,而不是信息工具。第三节|你问它能帮你做什么?
你也许会问:AI 会带图思考,那和我有什么关系?
我们想告诉你:这件事的改变,不是科研级的突破,而是你每天都能遇到的场景。
学生 / 教育
拍一道题,它能逐步讲解解题过程;
拍一页错题,它能自动总结常见误区;
拍一张课堂板书,它能提取知识结构,生成图解笔记。
程序员
上传一张报错截图,它能识别关键报错内容、分析可能原因,并告诉你修复建议。
商务办公
拍一张白板图,它能自动总结会议要点,拆分待办事项;
拍一页笔记,它能转成结构化行动计划;
拍 PPT 页面,它能帮你提炼成大纲 + 金句。
医生 / 工程师 / 设计师
医学图像、工程图纸、UI 线框图……只要是“要用眼判断”的信息,AI 都能帮你读、分析、总结。
未来趋势
无论是自动文档整理、图表理解,还是“看懂环境+做决策”的多模态机器人,视觉推理,正成为“通用 AI 能力”的核心模块。
你可能没意识到,视觉推理正在变成你的“第二双眼”。✍️ 第四节|迈向“代理智能”
过去,AI 是工具箱——你告诉它要干什么,它给你结果。
而现在,AI 开始变成“自动干活的助手”:它不仅会用工具,还会判断什么时候用、用哪个、怎么用。
o3 和 o4-mini,是OpenAI首次明确引入「代理式工具调用能力(Agentic Tool Use)」的模型。
这意味着,它正在从“被动响应”进化为“主动规划”。
(面对同一道极难数学题,o3 能主动分解任务并规划工具调用,o1 则只是重述题目。)
这张图展示了核心差异:
o1:只是“读懂”题目并尝试生成静态结果
o3:会分析题意 → 调用内建知识 → 主动触发函数模块/计算模块 → 输出过程+结论
什么是“Agentic Tool Use”?三件事你要知道:
✅ 1. 会“决定用不用工具”
它不再是你手动触发代码执行,而是它判断任务是否复杂,是否需要借助搜索/Python/文件分析等外部工具
✅ 2. 会“组合多工具解决问题”
你提一个问题,它可以先搜索 → 再写代码分析数据 → 最后生成图表或结论
比如你问:“今年夏天上海用电会不会比去年多?” 它会:
搜索历史数据 →
写代码预测用电趋势 →
️ 输出图表 →
✍️ 分析关键因素并解释预测逻辑
✅ 3. 会“根据中间结果改变策略”
如果第一次搜索结果不理想,它会换个关键词再查;
如果某个数据缺失,它会判断是否需要用户上传新资料或换分析方式;
它的行为链更像一个人,而不是一行脚本。
(在同等甚至更低成本下,o4-mini 实现更高推理效率和工具组合能力。)
这张图说明:更“聪明”的 agent,不意味着更“贵”,o4-mini 在许多任务中性价比反超 o3-mini。
小结:
过去,你得教 AI 怎么干;现在,它能自己决定怎么干。
这就是o3 和 o4-mini 引领的趋势:
从“语言模型”,走向“任务代理模型”
AI 不只是你的工具,它正在变成“带执行力的队友”。
如果你更关心图像、咨询、科学类任务表现,OpenAI 也做了类似的对比,后续我们会专门拆解。
AI 从“会说话”走到“能做事”
o3 和o4-mini ,代表的不是“新一代模型”,而是新一代能力结构。
过去,我们对大模型的认知是:
它能回答问题、写段子、翻译句子……
而今天,我们看到的中 o3 文已经具备了:
✅ 看懂图像并以图思考的能力
✅ 多步骤解决复杂任务的执行力
✅ 选择合适工具并主动调整策略的判断力
这些能力加在一起,不是更聪明的对话机器人,而是更像人的 AI 合作者。
我们正在从“会说话的模型”,进入“会行动的智能体”时代。
想问你一个问题:
如果你手边有这样一个能看图、会推理、能动手干活的 AI—— 你会先用它解决什么问题?
如果你读完这篇文章,有所收获:
欢迎分享给那个「每天被图、被图表、被任务追着跑」的朋友
也欢迎关注「AI深度研究员」——
这里不是在讲模型,而是讲 “AI 如何真正帮你完成任务”
星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标
参考资料:
https://openai.com/index/thinking-with-images/
https://openai.com/index/introducing-o3-and-o4-mini/
https://www.youtube.com/watch?v=sq8GBPUb3rk&t=475s
来源:官方媒体/网络新闻
排版:Atlas
编辑:深思
主编: 图灵
热门跟贴