过去几周,我们见证了OpenAI旗舰级大语言模型从GPT-5.3迭代到GPT-5.4。可以将这些模型视为驱动AI计算的引擎。每次代际跃升通常会带来性能和准确性的提升。
实际的发布情况如果没有记分卡可能会有些难以跟踪。3月5日,OpenAI发布了GPT-5.4 Thinking,这是一个高性能的深度思考模型。两天前,该公司发布了GPT-5.3(不是5.4)Instant模型,该模型"让日常对话变得更加一致地有用和流畅",但不一定更准确。
本周,OpenAI发布了GPT-5.4 mini和GPT-5.4 nano模型。这些模型专为快速、高效、大容量的AI工作负载而设计。它们基本上是经济型大语言模型产品。
对于许多AI工作流程来说,最有效的模型是能够平衡强大性能、快速响应和可靠工具使用的模型。
据OpenAI表示,"这些模型专为那些延迟直接影响产品体验的工作负载而构建:需要响应迅速的编码助手、快速完成支持任务的智能体、捕获和解释屏幕截图的计算机使用系统,以及能够实时推理图像的多模态应用程序。"
该公司表示,"在这些环境中,最好的模型往往不是最大的那个——而是能够快速响应、可靠使用工具,并在复杂专业任务上仍能表现良好的模型。"
与GPT-5 mini相比,GPT-5.4 mini在编码、推理、多模态理解和工具使用方面都有提升。该模型的运行速度是GPT-5 mini的两倍多。
GPT-5.4 nano是最小、最快的模型,专门针对分类、提取、排名和简单编码支持任务。
在考虑更小、更便宜的模型时,性能是决定因素。买家想知道他们的投资回报到底有多少。为了说明这种性能表现,OpenAI展示了相比几个月前发布的模型有显著优势:
GPT-5.4 mini在基准测试通过率方面接近GPT-5.4级别,同时提供更快的执行速度。换句话说,更小、更轻的GPT-5.4 mini模型在衡量模型是否正确解决问题的基准测试("通过率")上表现几乎与完整的GPT-5.4模型一样好。
GPT-5.4 nano处于中间位置。例如,它在SWE-bench Pro上得分52.39%,在Terminal Bench 2.0上得分46.30%,虽然不如GPT-5.4 mini高,但仍然比GPT-5 mini好得多。
技术专家公司Hebbia构建帮助专业人士使用自然语言挖掘大量文档集合的工具。他们的产品吸引了金融、法律和研究等领域的用户,在这些领域,同时分析多个文档并从中获得见解的能力特别有用。
Hebbia首席技术官Aabhas Sharma表示:"GPT-5.4 mini为这一级别的模型提供了强大的端到端性能。在我们的评估中,它在多个输出任务和引用回忆方面匹配或超越了竞争模型,成本却低得多。它还比更大的GPT-5.4模型实现了更高的端到端通过率和更强的来源归属。"
数字工作空间Notion是互联网生产力爱好者的宠儿。我正在我的Notion工作空间中写这篇文章。该技术为结构化和非结构化数据提供了一个家。你也可以使用Notion构建用于信息管理的无代码迷你应用程序。
Notion AI工程负责人Abhisek Modi说:"GPT-5.4 mini以令人印象深刻的精确度处理专注、明确定义的任务。特别是在编辑页面方面,它在处理复杂格式化时匹配并经常超越GPT-5.2,而计算量只是后者的一小部分。"
Modi继续说:"直到最近,只有最昂贵的模型才能可靠地处理智能体工具调用。今天,像GPT-5.4 mini和nano这样的较小模型可以轻松处理它,这将让我们的用户在Notion上构建自定义智能体时可以精确选择他们需要的智能程度。"
当你开始研究智能体如何适应整个生态系统时,很明显AI可以被构建来镜像现实世界的人类操作。例如,你可以将更强大的AI模型(如GPT-5.4 Thinking)与更快、更便宜的模型(如GPT-5.4 mini)结合起来,就像你可能有一个高级工程师管理一个初级工程师团队一样。
智能体系统可以组合不同大小的模型,大模型规划任务,小模型执行子任务。在这种情况下,GPT-5.4 mini可以处理子智能体工作,如搜索代码库、审查文件和处理文档。
OpenAI说:"GPT-5.4 mini在多模态任务上也很强大,特别是与计算机使用相关的任务。该模型可以快速解释密集用户界面的屏幕截图,以快速完成计算机使用任务。"
GPT-5.4 mini在API、Codex和ChatGPT版本中都可用。对于免费和Go层用户,GPT-5.4 mini可通过加号菜单中的"思考"选项访问。OpenAI说:"对于所有其他用户,GPT-5.4 mini可作为GPT-5.4 Thinking的速率限制回退。"
该公司表示,对于程序员,GPT-5.4 mini在Codex应用程序、CLI、IDE扩展和网络中都可用。OpenAI说,mini模型"只使用GPT-5.4配额的30%,让开发者在Codex中快速处理简单的编码任务,成本约为三分之一。"此外,Codex还可以委托给GPT-5.4 mini子智能体,让推理强度较低的工作在成本较低的模型上运行。
从成本对比可以看出差异显著:
相比之下,GPT-5.4的定价为每百万输入Token 2.50美元,每百万输出Token 15.00美元。这要贵得多。如果你试图控制成本并且不需要额外的处理能力,使用mini和nano模型是有意义的。
Q&A
Q1:GPT-5.4 mini相比GPT-5 mini有哪些改进?
A:GPT-5.4 mini在编码、推理、多模态理解和工具使用方面都有提升,运行速度是GPT-5 mini的两倍多,在基准测试通过率方面接近GPT-5.4级别,同时成本更低。
Q2:GPT-5.4 nano适合什么样的任务?
A:GPT-5.4 nano是最小、最快的模型,专门针对分类、提取、排名和简单编码支持任务设计,在SWE-bench Pro上得分52.39%,在Terminal Bench 2.0上得分46.30%。
Q3:如何在智能体系统中使用这些不同规模的模型?
A:智能体系统可以组合不同大小的模型,大模型如GPT-5.4 Thinking负责规划任务,小模型如GPT-5.4 mini执行子任务,比如搜索代码库、审查文件和处理文档等工作。
热门跟贴