GPT-4.5 发布：提升情商但 API 价格高昂，是革新还是微调？|gpt|情商

北京时间 2025 年 2 月 28 日凌晨 4 点，在 DeepSeek 的竞争压力下，OpenAI 发布了 GPT-4.5。这场仅 13 分钟的 “下午茶式” 小型发布会，主打用 “情商” 走进人类生活，不过 OpenAI CEO 萨姆・奥尔特曼（Sam Altman）因照顾刚出生的孩子缺席。

一、GPT-4.5 的功能特性与提升

（一）功能概览

GPT-4.5 具备多项新功能，它能直接联网搜索信息，支持用户上传文件与图片进行分析，还可借助内置的 Canvas 工具辅助写作或编程。然而，它目前在功能上存在局限，无法处理语音对话、视频互动或屏幕共享功能。

（二）情商表现升级

在情商展示环节，面对朋友爽约让写短信表达不满的场景，GPT-4.5 能识别用户的沮丧情绪，给出更有分寸、具建设性的短信内容，考虑到维护友谊的需求；而 o1 则直接输出带有强烈情绪的内容，未能理解用户深层需求。在解释 “AI 对齐的必要性” 时，GPT-4.5 注重逻辑引导，通过日常案例辅助理解，将复杂问题拆解为 “目标定义 — 伦理风险 — 技术实现” 步骤，测试者认为这种方式降低了认知负担，使其更像协作伙伴。

（三）综合能力优化

GPT-4.5 主要通过可扩展对齐技术和混合训练机制进行优化。可扩展对齐技术整合小模型训练数据，增强对人类意图的理解；混合训练机制结合监督微调与人类反馈强化学习，用更少数据实现大规模模型优化。它结合无监督学习与推理能力，在处理复杂任务时会拆解逻辑链、验证隐含条件，在科学问答测试 GBQA 中准确率较前代有所提升。在内部评测中，GPT-4.5 在专业领域任务错误率明显降低，虚构内容概率更低。在新的 “氛围测试” 中，它在创意写作、情感支持等场景表现出色，能生成更贴合人类交流习惯的内容。在 SimpleQA 基准测试中，GPT-4.5 的准确率达到 62.5%，幻觉率为 37.1%，相比 GPT-4o、o1 和 o3mini 均有优化，在部分标准学术基准测试中也超越了 GPT-4o 和 o3-mini。不过，在复杂推理任务（如数学证明或代码调试）上，它仍弱于专注推理的专用模型，比如在解释 “深海鱼类高压适应机制” 时，o3 Mini 会逐步拆解生物进化逻辑，而 GPT-4.5 更依赖既有知识直接归纳结论。

二、GPT 系列模型的进化历程

回顾 GPT 系列模型的发展，从 2018 年的 GPT-1 到如今的 GPT-4.5，变化巨大。GPT-1 回答问题时完全是随机单词拼凑，毫无逻辑和科学常识。GPT-2 在 2019 年展现出与问题相关的回答能力，但准确性不足，解释模糊且错误较多。GPT-3.5 Turbo 能给出正确答案，却存在冗余信息，逻辑分散。GPT-4 Turbo 知识储备提升，却陷入 “炫技式” 回答，信息组织不佳。而 GPT-4.5 在回答 “海水为什么是咸的” 这一问题时，实现了信息整合与语言优化，用押韵句式和清晰逻辑进行解答，便于记忆。

三、GPT-4.5 的 API 定价与行业争议

目前开发者可通过 API 调用 GPT-4.5 的核心能力，但多模态功能尚未开放。其 API 定价极高，输入 100 万 token 需 75 美元，输出 100 万 token 高达 150 美元，价格是 GPT-4o 的 15 - 30 倍，与 DeepSeek-V3 和 R1 的 API 价格相比，差距更为明显。知名科技播客主持人 Dwarkesh Patel 与微软 CEO 萨提亚・纳德拉（Satya Nadella）就 token 价格问题展开讨论，纳德拉认为 token 的实用性很重要，技术突破会改变 token 的有效性能边界。但就目前来看，GPT-4.5 在价格与性能平衡方面表现不佳。

总体而言，GPT-4.5 更像是一次技术 “微调”，虽承载了前作优化成果并为未来升级做铺垫，但未打破现有技术框架。OpenAI 后续可能会推出 GPT-4.6、GPT-4.7 等渐进式迭代版本。然而，若每次迭代都伴随着指数级成本攀升，技术进化的方向可能会偏离初衷。在追求 “让 AI 更懂人” 的同时，也应思考技术进化的终点究竟是为人类提供平等赋能，还是在算力竞赛中重塑新的权力结构。