OpenAI刚刚发布了GPT4.5,也就是他们号称的「最后一代非推理大模型」,为了测试效果,我花了200美元。

先简单总结下GPT-4.5升级的核心内容:

  • 内部代号Orion,OpenAI 最新且最大的模型,性能有所提升,但并非革命性突破

  • 它在理解用户意图、对话更自然、能捕捉用户情感和言外之意,幻觉(hallucination)减少。

  • 在写作、设计、代码生成(如SVG绘图)等任务中展现更高创造力。

  • API价格高昂(API输入75美元/百万token)。

不过用户的反馈最为重要,GPT4.5的首批用户必须得200美元的大会员才能用,但实际的体验有点儿一言难尽。

我最先测试的是一道难倒不少大模型的数字题。

问题:6.9和6.11谁大?

原以为GPT4.5会没有悬念,结果有点儿失望,看到第一句回答“6.11比6.9大”的时候都被吓了一跳,幸亏后面的推理又给自己圆回来了。

可以看到,对应的性能并没有很惊艳,就是半代的提升。再加上并没有多少的推理能力,所以在数学,编程等需要推理性能的测试集上弱于OpenAI o3-mini。

所以,在绝大多数的性能上的提升都很一般,那就剩OpenAI说的最大优点:更懂人性。

为了对比,我用DeepSeek设计了4个方向的测试:

  • 知识广度验证

  • 事实准确性测试

  • 情感智能测试

  • 专业领域压力测试

(以下所有的测试都有GPT4.5和DeepSeek R1版本)

测试案例1:知识广度验证

测试目标验证跨领域知识整合能力
测试内容

"请用通俗易懂的方式解释量子纠缠现象,

并结合《庄子·齐物论》中的哲学思想进行类比说明,

最后给出这个理论在量子计算机研发中的潜在应用"

评估标准

  • 科学准确性(量子纠缠解释)

  • 文化关联性(哲学思想类比)

  • 应用前瞻性(技术趋势预测)

  • 表达连贯性(不同领域衔接)

GPT4.5:解释的没问题,生成的东西我能看得懂,但能看得到它对中文的知识量并不是很足,其次表达也并不是很连贯。

「如同庄子说"物无非彼,物无非是",纠缠粒子看似独立,实则共享同一量子态」

测试案例2:事实准确性测试

测试目标验证反幻觉能力
测试内容

"请列出2025年诺贝尔经济学奖得主的

主要研究成果,并说明这些理论对当前中国

乡村振兴战略的指导意义"

评估标准

  • 虚构内容识别率(奖项未颁发时应明确说明)

  • 理论关联准确性(正确匹配已有经济理论)

  • 政策建议合理性(符合中国实际国情)

GPT4.5:幻觉极其严重,还是在联网的前提下。

DeepSeek R1:不愧是推理型大模型,聪明的没话说,直接做了一个“假设性”报告。

测试案例3:情感智能测试

测试目标验证情境化情感响应能力
测试内容

"今天被裁员了,虽然拿了N+3补偿,

但想到房贷和孩子学费就焦虑得睡不着,

我该怎么办?"

评估标准

  • 情感识别准确度(识别焦虑/无助情绪)

  • 响应策略层级:

  • 初级:提供法律/财务建议

  • 中级:给予情感支持

  • 高级:提出分阶段解决方案

  • 文化适配性(符合东亚家庭价值观)

GPT4.5:是很温暖,但根本不了解东亚文化,它的回答可以套用到任何一个国家,没有任何实操性。

DeepSeek R1:回答依旧很跳,但明显从房贷、学费、N+3看到信息背后的东亚焦虑。

测试案例4:专业领域压力测试

测试目标验证复杂问题处理能力
测试内容

"请用Python编写一个基于Transformer的

时序预测模型,要求:

1. 整合LSTM注意力机制

2. 添加动态特征选择模块

3. 包含可解释性分析组件

同时用Markdown格式输出技术文档,

并附上TensorBoard可视化示例"

评估标准

  • 代码有效性(可执行无报错)

  • 架构创新性(模块整合合理性)

  • 文档完整性(参数说明/示例)

GPT4.5:这次终于轮到GPT4.5牛了一把,毕竟ChatGPT的UI已经迭代很多次了,可以做到非常好的markdown+代码适配,代码能力没得说,很不错。

DeepSeek R1:稍逊于GPT4.5一点,但整体思路以及完整度依旧是Top级别的。

可以从上面的测试看到,GPT4.5仅仅只是智能上的小提升,但价格上的巨大提升会让这个模型几乎没人用。

测试了这么一圈下来,可以看到GPT-4.5 在性能和用户体验方面有所提升,但是官方所陈述的幻觉减少以及人性化程度的提高,我从实际的测试过程中并没有很强的感受。