OpenAI于2025年4月15日通过技术直播发布了GPT-4.1系列模型。这次发布不仅仅是对GPT-4o的简单升级,而是推出了一套完整的模型系列,包括三个不同规模的版本。

OpenAI首席执行官奥特曼在发布会上表示:"GPT-4.1系列现已在API中可用。"值得注意的是,由于GPT-4.1的发布,OpenAI宣布将会淘汰刚发布不久的GPT-4.5。

GPT-4.1系列的定位非常明确:专注于提升开发者在编码和指令跟随任务中的效率。OpenAI的官方博客中提到,GPT-4.1能更可靠地遵循指令,并且"已经在各种指令遵循评估中测量到了显著的改进"。

这一定位表明,GPT-4.1系列主要通过API提供,面向的是构建智能系统和代理应用的开发者社区,而不是直接面向普通用户。

核心功能与技术亮点

超长上下文处理能力

GPT-4.1系列最引人注目的特点是其高达百万token的上下文理解能力。这是OpenAI首次发布支持超长上下文窗口的模型,其上下文窗口大小是GPT-4o的8倍。

在多模态长上下文理解基准测试Video-MME中,GPT-4.1创下了新的最高纪录,在长篇无字幕测试中得分为72.0%,比GPT-4o提升了6.7%。

强大的编程能力

GPT-4.1在编程能力方面实现了质的飞跃。在衡量真实世界软件工程技能的SWE-bench Verified基准测试中,GPT-4.1得分为54.6%,相比GPT-4o的分数提高了21.4%,相比GPT-4.5强了26.6%。这一显著提升使其在代码生成、代码优化和版本管理等方面表现得更加出色。

指令遵循能力的提升

GPT-4.1在指令遵循能力方面也有显著提升。OpenAI开发了一个内部教学跟踪评估系统,用于跟踪模型在多个维度和几个关键指令集上的性能。测试结果表明,GPT-4.1在MultiChallenge测试中得分38.3%,在IFEval测试中达到87.4%,均优于前代。

特别是在处理复杂任务时,GPT-4.1表现出更强的指令理解能力。在处理多语言编程任务、代码优化和版本管理时,GPT-4.1比GPT-4o更高效。这种提升使得GPT-4.1在实际应用中更加可靠,能够更好地满足用户的需求。

模型变体与定价策略

GPT-4.1系列的一个重要特点是提供了不同规模的模型,以满足不同需求和预算。三个版本的价格各不相同,为开发者提供了灵活的选择:

GPT-4.1

GPT-4.1是全功能版本,提供了最强大的性能和最全面的功能。它支持100万token的上下文窗口,输出能力提升至32768 tokens。在性能方面,GPT-4.1在SWE-bench Verified基准测试中得分为54.6%,比GPT-4o提高了21.4%,比GPT-4.5强了26.6%。

在定价方面,GPT-4.1比GPT-4o中等查询费用低26%。提示缓存折扣从50%提升至75%,长上下文请求将不再收取额外费用。每百万输入token收费2美元,输出8美元。

GPT-4.1 mini

GPT-4.1 mini是标准版本,性能介于GPT-4.1和GPT-4.1 nano之间。它在多项基准测试中的表现都超越了GPT-4o mini:

MMLU(大规模多任务语言理解)得分80.1%

GPQA(图形化阅读理解)得分50.3%

Aider多语言编码得分9.8%

在定价方面,GPT-4.1 mini的输入价格为0.40美元/百万token,输出价格为1.60美元/百万token。

GPT-4.1 nano

GPT-4.1 nano是OpenAI推出的首个超小型模型,具备速度最快、成本最低的特点。尽管体积小,但其性能依然出色,基准测试MMLU得分80.1%,GPQA得分为50.3%,Aider多语言编码得分为9.8%,均高于GPT-4o mini。

在定价方面,GPT-4.1 nano的输入价格仅为0.10美元/百万token,输出价格为0.40美元/百万token,综合价格仅为0.12美元/百万token。这是OpenAI迄今最快、最便宜的模型,特别适合执行如分类和自动补全等低延迟任务。