GPT4.5四大维度测试报告：幻觉严重，有点儿失望

平凡AI

2025-02-28 08:41 ·海外 ·英国大学老师优质互联网领域创作者

OpenAI刚刚发布了GPT4.5，也就是他们号称的「最后一代非推理大模型」，为了测试效果，我花了200美元。

先简单总结下GPT-4.5升级的核心内容：

内部代号Orion，OpenAI 最新且最大的模型，性能有所提升，但并非革命性突破。
它在理解用户意图、对话更自然、能捕捉用户情感和言外之意，幻觉（hallucination）减少。
在写作、设计、代码生成（如SVG绘图）等任务中展现更高创造力。
API价格高昂（API输入75美元/百万token）。

不过用户的反馈最为重要，GPT4.5的首批用户必须得200美元的大会员才能用，但实际的体验有点儿一言难尽。

我最先测试的是一道难倒不少大模型的数字题。

问题：6.9和6.11谁大？

原以为GPT4.5会没有悬念，结果有点儿失望，看到第一句回答“6.11比6.9大”的时候都被吓了一跳，幸亏后面的推理又给自己圆回来了。

可以看到，对应的性能并没有很惊艳，就是半代的提升。再加上并没有多少的推理能力，所以在数学，编程等需要推理性能的测试集上弱于OpenAI o3-mini。

所以，在绝大多数的性能上的提升都很一般，那就剩OpenAI说的最大优点：更懂人性。

为了对比，我用DeepSeek设计了4个方向的测试：

知识广度验证
事实准确性测试
情感智能测试
专业领域压力测试

（以下所有的测试都有GPT4.5和DeepSeek R1版本）

测试案例1：知识广度验证

测试目标：验证跨领域知识整合能力
测试内容：

"请用通俗易懂的方式解释量子纠缠现象，

并结合《庄子·齐物论》中的哲学思想进行类比说明，

最后给出这个理论在量子计算机研发中的潜在应用"

评估标准：

科学准确性（量子纠缠解释）
文化关联性（哲学思想类比）
应用前瞻性（技术趋势预测）
表达连贯性（不同领域衔接）

GPT4.5：解释的没问题，生成的东西我能看得懂，但能看得到它对中文的知识量并不是很足，其次表达也并不是很连贯。

「如同庄子说"物无非彼，物无非是"，纠缠粒子看似独立，实则共享同一量子态」

测试案例2：事实准确性测试

测试目标：验证反幻觉能力
测试内容：

"请列出2025年诺贝尔经济学奖得主的

主要研究成果，并说明这些理论对当前中国

乡村振兴战略的指导意义"

评估标准：

虚构内容识别率（奖项未颁发时应明确说明）
理论关联准确性（正确匹配已有经济理论）
政策建议合理性（符合中国实际国情）

GPT4.5：幻觉极其严重，还是在联网的前提下。

DeepSeek R1：不愧是推理型大模型，聪明的没话说，直接做了一个“假设性”报告。

测试案例3：情感智能测试

测试目标：验证情境化情感响应能力
测试内容：

"今天被裁员了，虽然拿了N+3补偿，

但想到房贷和孩子学费就焦虑得睡不着，

我该怎么办？"

评估标准：

情感识别准确度（识别焦虑/无助情绪）
响应策略层级：
初级：提供法律/财务建议
中级：给予情感支持
高级：提出分阶段解决方案
文化适配性（符合东亚家庭价值观）

GPT4.5：是很温暖，但根本不了解东亚文化，它的回答可以套用到任何一个国家，没有任何实操性。

DeepSeek R1：回答依旧很跳，但明显从房贷、学费、N+3看到信息背后的东亚焦虑。

测试案例4：专业领域压力测试

测试目标：验证复杂问题处理能力
测试内容：

"请用Python编写一个基于Transformer的

时序预测模型，要求：

1. 整合LSTM注意力机制

2. 添加动态特征选择模块

3. 包含可解释性分析组件

同时用Markdown格式输出技术文档，

并附上TensorBoard可视化示例"

评估标准：

代码有效性（可执行无报错）
架构创新性（模块整合合理性）
文档完整性（参数说明/示例）

GPT4.5：这次终于轮到GPT4.5牛了一把，毕竟ChatGPT的UI已经迭代很多次了，可以做到非常好的markdown+代码适配，代码能力没得说，很不错。

DeepSeek R1：稍逊于GPT4.5一点，但整体思路以及完整度依旧是Top级别的。

可以从上面的测试看到，GPT4.5仅仅只是智能上的小提升，但价格上的巨大提升会让这个模型几乎没人用。

测试了这么一圈下来，可以看到GPT-4.5 在性能和用户体验方面有所提升，但是官方所陈述的幻觉减少以及人性化程度的提高，我从实际的测试过程中并没有很强的感受。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴