在GPT-4横空出世后,始终不见新一代大模型。暌违2年半,大家的心情如下,终于在今晚等到了GPT-5。
毫无意外,GPT-5登顶了大模型各种测评榜单。OpenAI发布的GPT-5四个模型,在Artificial Analysis Intelligence Index v2.2中排名如下:
GPT-5 (high)– 得分 69
GPT-5 (medium)– 得分 68
GPT-5 (low)– 得分 63
GPT-5 (minimal)– 得分 44
解释下,在这个综合指数排名中,官方说明里列出了 8 个子基准——MMLU-Pro、GPQA Diamond、Humanity’s Last Exam、LiveCodeBench、SciCode、AIME、IFBench 以及 AA-LCR。每个模型的得分是在这 8 组测试中表现的汇总(通常是加权平均或标准化后的平均值)。
但其实GPT-5最大的跨越,是统一智能架构。
现在,用户不用费力区分什么时候用4o,什么时候用o3等众多模型,ChatGPT将统一用GPT-5提供服务,它整合了高效响应模型和深度推理模型(GPT-5 thinking),通过实时智能路由自动判断何时快速响应,减少不必要的算力浪费;自主判断何时深度思考,给用户最深刻的回答。
而在LLM Arena 更新的榜单中,GPT-5拿到几乎所有类别的第一名,包括数学、指令遵循、多轮对话、编码、WebDev等等,仅仅创意性写作这个类别上稍弱于 Gemini 2.5pro。
具体看,GPT-5在多个权威基准测试中取得了突破性成绩:
1)数学推理:AIME 2025 无工具辅助达到 94.6%;
2)多模态理解:MMMU 基准测试达到 84.2%;
3)科学推理:GPT-5 Pro 在 GPQA 测试中无工具辅助达到 88.4%;
4)代码编程: 在 SWE-bench Verified(软件工程任务)中:GPT-5直接回答准确率为 52.8%,加入思考链后提升至 74.9%,相比之下GPT-4o 表现为 30.8%,OpenAI o3 为 69.1%。
在 Aider Polyglot(多语言代码编辑任务)中:GPT-5加入思考链后准确率达 88.0%,无思考仅 26.7%,而 GPT-4o 为 25.8%,OpenAI o3 为 79.6%。
所以,GPT-5依托思考链技术,在复杂任务中表现得更得心应手。
多说一句,GPT-5 在编程方面击败了 Claude Opus 4.1,成为全球最佳编程模型!连Cursor和微软Copilot都第一时间接入了GPT-5 ,以后AI Coding市场要更热闹了。
抛开GPT-5的能力升级,更为重要的意图改进,可能是在以下三点:
1、
相比上一代模型大幅减少幻觉和废话,让AI更可信。
与 GPT-4o 相比:GPT-5事实性错误减少 45%;开放事实上的幻觉减少 6 倍;缺失数据上的欺骗性回答减少 80%。
直播中举例,没有数据的问题,不会像以前直接遣词造句,装模做样地编造回答。现在会直接告诉无法回答,还会给一个解决方案。这也意味着GPT-5 更准确,更诚实。
虽然宣称GPT-5的幻觉率大幅减少,但是OpenAI的工作人员幻觉率可挺高,直播中出现了大乌龙。
这张翻车的直播PPT图中,柱状图显示 数值52.8 比 69.1 高,而 69.1 又被显示为与 30.8 相同量级。
或许是因为AI,人类数学能力已经出现了大幅衰退,笑Cry。
2、
GPT-5 更具有多维的人类情感,而不是单纯的讨好人类。
GPT-5这次新增 4 个聊天个性:愤世嫉俗者、机器人、倾听者、书呆子。可在设置中的 Customize ChatGPT 里自主选择。而且GPT-5 将谄媚(AI 过度奉承)减少了>60%。当你犯错时,会减少“你是对的”。
3、在健康领域的回答更实用。
GPT-5在 HealthBench 基准测试中得分创历史新高,达到 46.2%。直播中,一位患上癌症的女性将诊断书输入 ChatGPT,ChatGPT 将GPT-5将难懂的语言整理得易于理解。
当然,还有这点不得不提,就是OpenAI竟然玩起了性价比。将GPT-5 与 Claude Opus 4.1 进行比较,可见GPT-5 要便宜得多。
便宜到底好不好用,以下这些海外生成的案例可参考:
1、音乐节拍器生成测试
现实世界的信息是多模态的——文字、图像、音频、视频等多种形式共同构成了人类的认知输入。我们测试Chat GPT5 对音乐领域规则的理解,也考验其将抽象需求转化为,可执行逻辑的工程化能力。
生成的音乐很带感,网友直呼:“我的耳朵要怀孕了”,“也许它会彻底改变音乐产业“
@sama
2、建筑生成器
GPT-5也能协助建筑行业进行工作,全程没碰过一行代码,却非常智能的生成了3D楼房。
“做一个程序化的粗野主义建筑生成器,能让我通过拖拽以各种酷炫方式编辑建筑”,然后又让它 “再改进一下
3、简笔画对比
GPT-5 在自行车测试中的表现比 4o 好得多。
GPT-5 在和Claude Sonnet 4测试绘制游戏手柄中也好很多
4、指示GPT-5创建一个音乐可视化工具 + 迷你作曲家
5、编码能力测试:
在发布会上,主讲人宣称对安全系统进行了一系列的升级,国外网友(@PranavJoshi28)对 AI 能否设计并实现一个 “安全、规范、可维护” 的后端身份认证与权限系统进行了的综合测试,这一项测试既涉及具体技术的落地,也考验对安全最佳实践和工程化思想的理解。
提示词:创建基础的 RBAC(基于角色的访问控制) 使用 JWT(JSON Web Token) 密码存储应使用 bcrypt,但首先要将密码与 pepper(一种额外的加密盐)结合,并用 SHA-256(生成 32 字节)进行哈希处理,之后再用 bcrypt 加密,以避免 72 字节的截断问题 需维护迁移文件(不使用 ORM 或查询构建器),并设有单独的 up(升级)和 down(降级)文件夹 使用 Zod 进行类型检查和 schema 验证 生成访问令牌和刷新令牌(支持令牌轮换) 使用刷新令牌数据库来实现令牌的黑名单管理、撤销或过期处理
国外网友评价:大部分准确,需要较少的调整。
但网友测试GPT-5,检测出9.9-9.11=-0.21,这种难以想象的错误。
在GPT-5发布后,鲸哥预测:
➤因为GPT-5 人人可免费使用,以及回答效率更高,OpenAI的全球用户在今天周月活数7亿基础上将翻倍。
➤AI编程将走出小众,程序员大面积失业。因为GPT-5编程能力出众,一直拒绝OpenAI收购的Cursor,都第一时间接入了GPT-5,你就知道未来大部分AI编程软件,会齐刷刷都接入GPT-5,AI编程效率进一步提高。
➤GPT-5的多模态,以及多尺寸,将帮助其占领大多数AI场景, 很多大模型将因为竞争性不足,而被GPT-5踢了场子。
尽管马斯克还不服气,认为Grok 4 Heavy还占据着最智能的大模型宝座,但是GPT-5这次务实地推进,将改变除了桂冠外的一切。
一位国外网友站在长远的角度评价,GPT-5 只是点火器:
➤ GPT-5.5 Copilot+(内部测试阶段)
➤ GPT-6 → AGI 认知层
➤ Sora + Sky + Whisper = 完全感官认知
➤ AutoCode + Memory API = 世界操作系
你认可吗?
https://x.com/godofprompt/status/1953529048971588015
热门跟贴