北京时间 2025 年 2 月 28 日凌晨 4 点,在 DeepSeek 的竞争压力下,OpenAI 发布了 GPT-4.5。这场仅 13 分钟的 “下午茶式” 小型发布会,主打用 “情商” 走进人类生活,不过 OpenAI CEO 萨姆・奥尔特曼(Sam Altman)因照顾刚出生的孩子缺席。

一、GPT-4.5 的功能特性与提升

(一)功能概览

GPT-4.5 具备多项新功能,它能直接联网搜索信息,支持用户上传文件与图片进行分析,还可借助内置的 Canvas 工具辅助写作或编程。然而,它目前在功能上存在局限,无法处理语音对话、视频互动或屏幕共享功能。

(二)情商表现升级

在情商展示环节,面对朋友爽约让写短信表达不满的场景,GPT-4.5 能识别用户的沮丧情绪,给出更有分寸、具建设性的短信内容,考虑到维护友谊的需求;而 o1 则直接输出带有强烈情绪的内容,未能理解用户深层需求。在解释 “AI 对齐的必要性” 时,GPT-4.5 注重逻辑引导,通过日常案例辅助理解,将复杂问题拆解为 “目标定义 — 伦理风险 — 技术实现” 步骤,测试者认为这种方式降低了认知负担,使其更像协作伙伴。

(三)综合能力优化

GPT-4.5 主要通过可扩展对齐技术和混合训练机制进行优化。可扩展对齐技术整合小模型训练数据,增强对人类意图的理解;混合训练机制结合监督微调与人类反馈强化学习,用更少数据实现大规模模型优化。它结合无监督学习与推理能力,在处理复杂任务时会拆解逻辑链、验证隐含条件,在科学问答测试 GBQA 中准确率较前代有所提升。在内部评测中,GPT-4.5 在专业领域任务错误率明显降低,虚构内容概率更低。在新的 “氛围测试” 中,它在创意写作、情感支持等场景表现出色,能生成更贴合人类交流习惯的内容。在 SimpleQA 基准测试中,GPT-4.5 的准确率达到 62.5%,幻觉率为 37.1%,相比 GPT-4o、o1 和 o3mini 均有优化,在部分标准学术基准测试中也超越了 GPT-4o 和 o3-mini。不过,在复杂推理任务(如数学证明或代码调试)上,它仍弱于专注推理的专用模型,比如在解释 “深海鱼类高压适应机制” 时,o3 Mini 会逐步拆解生物进化逻辑,而 GPT-4.5 更依赖既有知识直接归纳结论 。

二、GPT 系列模型的进化历程

回顾 GPT 系列模型的发展,从 2018 年的 GPT-1 到如今的 GPT-4.5,变化巨大。GPT-1 回答问题时完全是随机单词拼凑,毫无逻辑和科学常识。GPT-2 在 2019 年展现出与问题相关的回答能力,但准确性不足,解释模糊且错误较多。GPT-3.5 Turbo 能给出正确答案,却存在冗余信息,逻辑分散。GPT-4 Turbo 知识储备提升,却陷入 “炫技式” 回答,信息组织不佳。而 GPT-4.5 在回答 “海水为什么是咸的” 这一问题时,实现了信息整合与语言优化,用押韵句式和清晰逻辑进行解答,便于记忆。

三、GPT-4.5 的 API 定价与行业争议

目前开发者可通过 API 调用 GPT-4.5 的核心能力,但多模态功能尚未开放。其 API 定价极高,输入 100 万 token 需 75 美元,输出 100 万 token 高达 150 美元,价格是 GPT-4o 的 15 - 30 倍,与 DeepSeek-V3 和 R1 的 API 价格相比,差距更为明显。知名科技播客主持人 Dwarkesh Patel 与微软 CEO 萨提亚・纳德拉(Satya Nadella)就 token 价格问题展开讨论,纳德拉认为 token 的实用性很重要,技术突破会改变 token 的有效性能边界。但就目前来看,GPT-4.5 在价格与性能平衡方面表现不佳。

总体而言,GPT-4.5 更像是一次技术 “微调”,虽承载了前作优化成果并为未来升级做铺垫,但未打破现有技术框架。OpenAI 后续可能会推出 GPT-4.6、GPT-4.7 等渐进式迭代版本。然而,若每次迭代都伴随着指数级成本攀升,技术进化的方向可能会偏离初衷。在追求 “让 AI 更懂人” 的同时,也应思考技术进化的终点究竟是为人类提供平等赋能,还是在算力竞赛中重塑新的权力结构。