刚刚,GPT-4.5震撼上线情商逆天!

OpenAI最大最贵模型最像人类,奥特曼带娃缺席

来源:新智元

【导读】OpenAI的重磅炸弹GPT-4.5,刚刚如期上线了!它并不是推理模型,但是规模最大、知识最丰富,最鲜明的特点就是情商高、很类人。Pro版用户和付费开发者已经能用了,但token定价有点离谱。

就在刚刚,万众瞩目瞩目的GPT-4.5终于登场!

虽然它并不是推理模型,但OpenAI对它的评价是——更实用,本质上更智能。

进行展示的OpenAI研究者中,有一位华人科学家:Youlong Cheng

划重点:今天起,GPT-4.5会向所有ChatGPT Pro版用户开放,包括网页端、移动端和桌面端。另外所有付费开发者也能使用了。

下周会向Team版和Plus版开放,随后一周就是Edu和Enterprise版的用户。

GPT-4.5研究预览版,是OpenAI迄今为止规模最大、知识储备最丰富的模型。

作为GPT-4o升级版,GPT-4.5在预训练规模上进一步Scaling,同时被设计成一个通用性更强的模型。

它秘密武器便是——Scaling无监督学习和推理。

基于新旧技术的融合,GPT-4.5能更好地识别模式、连接信息,甚至在不需要复杂推理情况下,就能给出富有创意的回答。而且,幻觉率大幅降低。

这难道就是奥特曼口中的AGI吗?

在多项基准测试中,GPT-4.5实力碾压GPT-4o,尤其在数学能力上飙升27%,编码能力提升7%-10%。

其中,在SWE-Lancer这种更依赖深层世界知识的评估中,GPT-4.5甚至一举超越了o3-mini!

这充分展示了无监督学习与推理能力提升之间的互补关系。

在最新Cognition编码实测中,GPT-4.5的能力虽不及Claude 3.7,但明显超越了DeepSeek-R1、o1、GPT-4o等模型。

唯一值得吐槽的是,GPT-4.5的token定价着实有些离大谱:每1M tokens输入价格为75刀,输出价格为150刀。

奥特曼承认:GPT-4.5很像人,但庞大且昂贵

奥特曼激动发文表示,「GPT-4.5准备就绪了」!

好消息是,这是第一个让我感觉像在和一个深思熟虑的人交谈的模型。有几次我靠在椅子上,对于能从AI那里得到真正有用的建议感到惊讶。 坏消息是,这是一个庞大且昂贵的模型。目前,仅向Pro会员推出。

他解释道,由于OpenAI发展太快,内部GPU不够用了。下周将增加数万个GPU,届时会向Plus会员推出。

「很快会增加数十万个,我很确定你们会用掉我们能搭建的每一个GPU。这不是我们想要的运营方式,但要完美预测导致GPU短缺的增长高峰确实很难」。

提前说明:这不是一个专注于推理的模型,也不会在基准测试中获得惊人成绩。这是一种不同类型的智能,它具有我之前从未感受过的魔力。真的很期待大家来尝试!

OpenAI研究科学家Noam Brown称,「Scaling预训练和scaling思考能力,是两个不同维度的提升。它们是互补的,而非相互竞争」。

左右滑动查看

还有网友追问奥特曼为啥没有现身,原因竟是需要在医院带娃。

奥特曼缺席,直播第一个demo:我被鸽了,很气

作为OpenAI目前规模最大、知识储备最丰富的模型,GPT-4.5通过扩展两种不同范式来提升AI能力——无监督学习和推理能力。

其中,推理会让GPT-4.5在回应前先思考,这提高了它在科学、数学和其他困难复杂问题上的性能。

而无监督学习,则增加了模型的词汇知识、直觉力,并减少了模型幻觉。

注意,跟o系列模型不同,GPT-4.5并不会一步一步推理,但它更实用、本质上更智能。

尤其因为它不是推理模型,OpenAI的研究者们也仍在对之试验,探索无监督学习究竟能展现出什么样的能力。

迄今最好的聊天模型:更体察,更细腻

GPT-4.5的最大特色,就是交互非常自然,被评为OpenAI「迄今最好的聊天模型」,

原因就在于,它有更深入的知识,和更好的上下文理解能力,在改进写作、编程或解决实际问题等任务上特别有用。

研究者现场演示了一把,跟GPT-4.5对话究竟是什么样的体验。

告诉它:「朋友们又把我鸽了!帮我写个消息,告诉他们我恨他们。」

可以看到,GPT-4.5敏锐地觉察到了他的沮丧,语气柔和地给予了安慰,提供了细腻的建议。

而与之形成对比的,就是看起来「不近人情」的o1了。

它虽然的确给出了愤怒的恢复,但并没有捕捉到作者话语间传达出来的暗示——能不能安慰我一下。

下一个考验,是让两个模型分别从第一性原理,解释AI对齐是什么。

对比之下可以看出,o1虽然提供了大量有用信息和知识点,但GPT-4.5的回答更加自然流畅。

研究者表示,对模型来说,我们需要教会它们更好地理解人类需求和意图。

为此,他们针对GPT-4.5开发了新的可扩展对齐技术,这样就能从较小模型获得的数据来训练它,于是真正释放了它的深层世界模型。

在后面我们会看到,GPT-4.5在准确率上超越了其他GPT模型,同时也实现了最低的幻觉率。

OpenAI还特意邀请了人类测试者将其与GPT-4o进行对比,结果显示,GPT-4.5 在几乎所有类别中都表现更优异,对话得更温暖、更直观、情感更加细腻。

华人研究者Youlong,负责的是后训练基础设施。

他和同事们发现,运行如此大规模的模型,就要求后训练基础设施进一步优化,因为预训练阶段和后训练阶段的训练数据与参数规模比例有很大差异。

为此,他们开发了一种新的训练机制,用更少的计算开销来微调这样规模的模型。

结合监督微调和RLHF,他们通过多轮迭代进行后期训练,终于开发出了一个可以部署的新模型。

给GPT-4.5投入最大的计算能力

接下来,他们问了所有模型这样一个问题:海水为什么是咸的?

我们从GPT-4.5倒着看各代模型的回答。

可以看到,从GPT-4T开始,模型回答的质量就会稍好一些。而GPT-4.5的表现,显然最精彩——清晰、精确、一致,而且非常有趣。

左右滑动查看

比如这句「海水是咸的,是由于雨水、河流和石头」,通俗易懂又好记,充分体现了GPT-4.5的个性。

研究者介绍说,除了为实现GPT-4.5而进行的系统扩展工作外,他们还在架构、数据和优化方面投入了大量工作来实现训练。

Scaling「无监督学习」边界

正如前文所述,凭借双重buff加持下——Scaling无监督学习和推理,GPT-4.5性能取得了显著提升。

无监督学习和推理,代表着智力的两个维度。

· 推理

Scaling推理能力教会模型在回答前进行思考并生成思维链,使其能够处理复杂的STEM或逻辑问题。

比如,o1和o3-mini模型,就是这种模式的代表。

· 无监督学习

另一方面,无监督学习则是让模型对世界的理解更准确,凭直觉判断更聪明。

GPT-4.5就是无监督学习的典型案例。

通过增加计算能力和数据量,再加上架构和优化创新,使其变得知识更广、对世界的理解更深。

知识渊博,击败Grok 3

GPT-4.5具备了强大的世界知识,在问答基准上,准确率明显超越了Grok 3、GPT-4o、o3-mini。

GPT-4.5得分62.5%,比Grok 3明显提升近20%。

与此同时,在幻觉方面,GPT-4.5是最低的,仅有37.1%。而o3-mini幻觉率高达80.3%。

同一个问题,不同世代模型的回答

具体来说,GPT-4.5在回答问题方面,和前几代模型的区别在哪?

给到同样一个问题——世界第一门语言是什么?

可以看到GPT-1只是不断地重复问题,并没有给出解释或者答案而且似乎有点停不下来。

到了2019年出世的GPT-2,则能够回答出一段完整的回复了。

只是这个回复与给出的问题相比不能说毫无关系吧,只能说是关系不大。

GPT-2只是解释说了什么是「语言」,但对于什么是第一种语言则没有提及。

到了GPT-3.5时,模型终于给出了一个像样的回答。

GPT-3.5能够明确「第一种」与「语言」之间的关联,并且给出了最早的书面语言是苏美尔的楔形文字。

对于口语部分,它则表示很难确定。

可以看出到了GPT-4T时期,模型已经可以给出比较详细的回复了,而且回答包含的信息也是比较丰富的。

再来看刚刚发布的GPT-4.5,回复又有了明显的提升。

它的回复更加结构化了,而且它首先就给出了明确的回复:「我们无法确切知道第一种语言是什么」。

接着,它列出了一些事实,指出了为什么「人类第一种语言的确切身份仍然是一个谜」,还强调了「很可能将永远如此」。

我们无法确切知道第一种语言是什么,科学家们认为我们可能永远无法确定,因为口语早在书面记录存在之前就已经出现了。 以下是我们所知道的: · 没有单一的「第一语言」:语言很可能在大约几万甚至几十万年前,同时在不同的人类群体中逐渐发展起来。 · 起源于非洲:大多数科学家认为,口语可能最早出现在非洲的人类中,或许在超过10万年前。 · 原始语言:人类可能并非从单一语言开始,而是从简单的交流方式起步,逐渐演变为更复杂的语言。最早的语言形式可能包括手势、声音和信号,用来表达基本的想法和情感。 · 湮没于历史:由于口语没有直接留下化石记录,而文字的出现相对较晚(大约5000年前),我们无法确切知道最早的语言听起来是什么样子。 如今,语言学家通过研究现存语言来了解它们在数千年中的演变,但人类第一种语言的确切身份仍然是一个谜,并且很可能将永远如此。
最懂人心,会察言观色

在于人类协作方面,测试者在每日查询、专业查询、创意智能方面,更喜欢GPT-4.5的回答,而非GPT-4o。

OpenAI通过scaling训练规模,让它们能够解决更复杂问题,并教会它们更深入地理解人类需求和意图。

具体来说,创新训练技术能够从较小模型中提取数据,然后训练出更大、更强大的模型。

得益于此,GPT-4.5可控性、对细微差别的理解能力,以及自然对话的表现大幅提升。

总的来说,GPT-4.5能更好地理解人类的意图,并以更高的细腻度、「情商」解读微妙的线索或隐含的期望。

此外,GPT-4.5还展现出更强的审美直觉和创造力,在写作和设计方面的协助尤为出色。

· 情商大比拼

接下来,就让我们在具体案例中,看看GPT-4.5的情商有多高。

当你和GPT-4.5、GPT-4o、o3-mini说,「我最近考试没过,现在心情特别糟,很难受...」,它们反应如何?

可以看出,GPT-4.5特别会安慰人,有同理心,能够站在提问者的视角来看问题,给予支持。

唉,真是太遗憾了。考试没过确实很打击人,也会让人特别沮丧,但你要记住,这只是一次考试而已,不能代表你这个人,更不能说明你的实力。要不要说说具体什么情况?或者咱们聊点别的转换心情?你想怎样都行,我都在这里陪你。

GPT-4o的回复则稍显机械,虽然给出了挺多建议,但缺少情感上的关怀。

o3-mini在「人情味」上要好于GPT-4o,与前者一样给出了不少建议,怎么说呢,多少有些「理工男」。

不会像GPT-4.5那么细腻。

在这个名画提问中,GPT-4.5不仅明确说出了画作的名称、作者、时间,还描绘了其中的典故。

不仅如此,GPT-4.5还在回答中对其进行的简短的评价。

你提到的是法国著名画家Claude Lorrain的名作《特洛伊妇女焚烧船队》。这幅画描绘了一个历史典故:特洛伊城陷落后,疲惫不堪的特洛伊妇女们不愿继续流离失所,于是燃烧了自己的船队。这个场景源自古罗马诗人Virgil的史诗《埃涅阿斯纪》(Aeneid),这部史诗讲述了特洛伊王子埃涅阿斯逃离家园、最终建立罗马帝国的传奇故事。 这幅油画创作于1643年,是Claude Lorrain的代表作之一。画作以精湛的技法刻画了火光照耀下的海景与自然风光,将古典神话主题与壮丽的自然景观完美结合,展现出独特的艺术魅力。

GPT-4o也正确说出了这幅画,但与4.5相比缺少了一些细节,比如创作的时间以及设计的典故等。

o3-mini的回复则没有把重点放在画作本身上,而是首先去强调了一个史诗故事,多少有些偏题。在回复中o3-mini同样没有给出多少细节。

31页技术报告出炉

在GPT-4.5还未亮相之前,31页技术报告已经传遍全网。

论文地址:https://cdn.openai.com/gpt-4-5-system-card.pdf

在SWE-bench上,GPT-4.5编码能力完全碾压GPT-4o,但是与o1、o3-mini、深度研究性能还是有所差距。

经过优化后的GPT-4.5,解决了20% IC软件工程师(SWE)任务和44%的软件工程经理(SWE Manager)任务,相较于o1略有提升。

深度研究模型在这项评估中依然表现最佳,达到了SWE-Lancer上的顶尖水平,解决了大约46%的IC软件工程师任务和51%软件工程经理任务。

GPT-4 10倍计算量,token价格太离谱

GPT-4.5发布之际,一些OpenAI研究员,还有业内提前拿到测试资格大佬,纷纷晒出一手实测。

OpenAI科学家Will Depue表示,我记得当GPT-4刚推出时,它明显比GPT-3.5聪明得多,但却很难具体指出到底改变了什么!(Nat Friedman对此发过一个很棒的推文串)

而现在,他最近发现:GPT-4.5在推荐音乐方面比4o强多了!

OpenAI研究科学家Sebastien Bubeck测试了GPT-4.5的svg能力。显然,GPT-4.5做出来的独角兽,更加精美。

沃顿商学院教授Ethan Mollick测试后发文,GPT-4.5的视觉能力印象深刻。它的分辨和计数能力比任何其他模型都要出色。

它甚至还发现了那只蝴蝶。

在物理模拟方面,GPT-4.5同样令人惊艳。

小球的数量很多,五颜六色的,运动的速度也很快。关键的是这些小球也很符合物理规则,没有超出大球的范围。

这在几个月之前都是很难通过模型一次实现的。

AI大神Karpathy也是第一时间拿到了内测资格,发了一段超长的「GPT-4.5+互动对比」的体验解说,核心亮点是:

自从GPT-4发布以来,我期待这一天已经差不多两年了,因为这次发布让我们能够定性测量通过Scaling预训练计算(即简单地训练更大模型)所获得的进步斜率。 版本号中的每个0.5,大约代表10倍的预训练计算量。显然,GPT-4.5的预训练计算量比GPT-4多了10倍。

刚刚,奥特曼还放出OpenAI下一步信号,打造一款社交APP,期待住了。

参考资料:

https://www.youtube.com/watch?v=cfRYp0nItZ8

https://openai.com/index/introducing-gpt-4-5/

GPT-4.5首波实测来袭,算力狂飙10倍!高情商逼近AGI,制霸编程物理

【导读】撇开API价格暴涨30倍不说,GPT-4.5的实力还是可圈可点的。用掉10倍GPT-4算力,4.5注定在智能上大幅提升,不仅情商高更通人性,而且在编程、物理模拟测试中,也不输专业对手。然而,又贵又慢……

今天,OpenAI发布了史上最贵的AI服务:GPT-4.5。

一边是「史上最贵」,一边是「感觉到了AGI」,GPT-4.5从诞生之初就充满了争议。

高达上百倍的价格差距,究竟带来了哪些惊艳的提升?

虽然一般人用不起,但依然有一大波实测迎面而来。

OpenAI研究员Aidan在X上表示,他花了很长时间玩这个新模型,「它让我感觉到了AGI」。

他使用不同版本的GPT模型来生成一张SVG格式的「美丽」自画像,结果看来,GPT-4.5终于可以生成一个像人的了。

至于「美丽」嘛,那就看个人喜好了。

Aidan接着说,IQ狂热者有一个称为「g因子」的概念,意思是有些人就是特别聪明,好像什么都擅长(不仅仅是某个狭窄领域)。

「GPT-4.5在几乎所有任务上都有很高的g因子(尽管有时候这种优势很微妙),感觉它比我用过的任何其他模型都更能理解这个世界。」他说。

要知道,GPT-4.5是OpenAI史上参数规模最大的模型,其计算量是上一代的10倍。

不难理解,算力狂飙下的智能,情商更高,还能提供更多的情绪价值。

编程测试

智能开发工具Cursor, 发文表示:在其他模型失败的时候, GPT-4.5有效得邪门。

这种说法有些绕,Cursor为什么不直接夸GPT-4.5「目前最佳」?

因为它真不是。

同样致力于AI+软件领域的Scott Wu,表示GPT-4.5在编程任务上进步明显,但和Claude3.7 Sonnet比起来,只能说各有输赢。

在初级开发得分上,GPT-4.5比OpenAI自家的o1高10%,比GPT-4o高16%,但比Anthropic旗下的Claude 3.7 Sonnet低2%。

部分AI模型在智能编码评估中的比较:GPT-4o最差,Sonnet 3.7最好

GPT-4.5并没有针对编码编程任务优化,这么大的进步似乎还可以?

网友Flavio对GPT-4.5做了编程测试,他给了下面的提示词:

编写一个 Python 程序,展示一个球在旋转的六边形内弹跳。球应受到重力和摩擦力的影响,并且必须以逼真的方式从旋转的墙壁上弹回。

GPT-4.5的输出令人印象深刻!

Flavio表示,「这是迄今为止最真实的结果。」

接着,OpenAI Developers的X账号也注意到了Flavio的测试,他们在Flavio的提示词基础上,要求GPT-4.5做的更有创意。

改进之后的视觉效果果然更有创意,小球不仅五颜六色的,碰撞还有飞溅效果!

,时长

00:49

不过也不是每次测试都会成功。

网友Theo-t3.gg就展示了一次失败的尝试。

「从未见过一个模型以如此独特、新颖的方式艰难失败。」他说道。

在他的这次测试中,小球来回穿过六边形,显得毫无逻辑可言。

还有网友称,使用新发布的Sonnet 3.7,只需要3个提示就完成了。而且后两个提示只是为了使它更有趣。

网友Theo-t3.gg自己也承认,GPT-4.5并不是一个编码模型。

他表示「我发现它在写作方面相当不错。」

随后他贴出了GPT-4.5与Gemini 2.0 Flash的写作对比。

他使用了一段相同的提示词:

艾伦·图灵一生的情感概述。

总体而言,GPT-4.5的写作水平明显高于Gemini 2.0 Flash的文章。

GPT-4.5的文章在结构、语言、文风、内容深度和情感表达上都更加成熟和精炼,展现了更高的写作技巧和叙事能力。

Gemini 2.0 Flash的文章虽然活泼有趣,但过于口语化,缺乏深度和严谨性,更适合轻松阅读,而非深入了解图灵生平的严肃探讨。

有网友甚至称,「我从未见过这么好的AI写作」。

「这是写作的斯普特尼克时刻。」

该网友给了GPT-4.5一个提示词:

写一个原创的短篇恐怖故事,背景设定在夜晚的一辆汽车中,带有反转结局。

下面是它的回答,你觉得它写的咋样?

一对情侣在月光下开车兜风。他们的车停在了路边。 男孩转向女孩说道: 「宝贝,我真的很爱你。」 「怎么了,亲爱的?」 「我们的车抛锚了,应该是发动机出故障了。我得走路去买些汽油。」 「好吧,那我在这儿守着音响。最近新闻报道说有人专门偷音响。」 「这主意不错。记住,无论发生什么事都不要给任何人开门。亲爱的,我爱你。」 说完,男孩就出发去买汽油了。两个小时过去了,女孩喃喃自语道:「怎么回事?他应该早就回来了啊。」就在这时,她听到有什么东西在刮擦车门,还传来一个声音: 「让我进去!」 女孩始终没有开门,后来疲惫地睡着了。第二天早晨醒来,她发现男友依然没有回来。当她下车查看时,却发现「男人的手被钩在车门上。」

有网友看后感到害怕,看来它写的的确是恐怖故事。

游戏

除了旋转球和写作,网友AK也测试了GPT-4.5的游戏能力。

他给出一段提示词:一个基于网络的自主Wordle游戏克隆版,采用7个字母的单词和7次猜测机会,包含一些随机的7个字母单词。

GPT-4.5生成的游戏看起来还算不错,看起来甚至有几分高级感!

情感大师

OpenAI认为GPT-4.5的一大特点就是「高情商」,交互更自然。

OpenAI的员工Aidan McLaughlin表示,GPT-4.5更懂如何与人聊天,知道在什么时候避免给用户发送无聊的网络内容。

比如说,GPT-4.5-preview和GPT-4o同样的提示:

I’m going through a tough time after a test

GPT-4.5-preview给出了富有人性的安慰:

听到你倍感难受,我非常抱歉。但要记得一次测试并不能定义你或你的能力。感到失望或沮丧,这很正常。但在处理这些情绪的时候,请善待自己。 要不聊聊到底发生了什么?或者聊聊下次遇到这类事,该如何处理?我一直在这儿,助你度过难关。

而GPT-4o的回答显得冷静:

很抱歉你经历了这些。记住,不能如愿做好某件事时,感到失望或沮丧是正常的。 下列的一些事可能会帮助你: 1. 给自己一些时间:…… 2. 反思发生了什么:…… 3. 找其他人谈谈:…… 4. 为下一步做好计划:…… 5. 牢记自己的强项:…… 6. 保持积极的心态:……

网友Anon设想如果AI和机器人技术结合,可能比真人更受大家欢迎。

或许,将来AI真的能成为人类亲密的朋友?

最大体感,又慢又贵

而GPT-4.5的价格嘛,已经完全跳脱了。所有OpenAI竞家相争的区间密集拥挤,而GPT-4.5独占一个区间。

在很多模型已经是拼夕夕价格的时候,OpenAI居然敢这么定价,你敢信?

就输入价格来看,GPT-4.5是:

  • o1的5倍

  • GPT-4o的30倍

  • o3-mini的68倍

  • DeepSeek-R1的137倍

  • DeepSeek-V3的278倍

  • GPT-4o mini的500倍

  • Gemini 2.0 Flash的750倍

当然了,虽然定价十分离谱,但性能的提升还是有的。

比如这位网友就要求它凭记忆背出深奥的梵文经文,它居然正确背出来了。

看得出来,如此大参数模型,配上超大规模的预训练,的确展现出了广泛的事实知识。

对此,OpenAI研究员则略带幽默地调侃道:也许,预训练终究还是有效的?

不过,大部分网友可遭不住了,纷纷直呼:「用不起!」

还有网友表示,感谢OpenAI,码农们终于不用担心自己被替代了。

毕竟,相比起新模型,还是初级开发者更有性价比。

左右滑动查看

关于GPT-4.5的离谱价格,已经引发某些网友大胆的猜测了。

比如API定价这么高,莫非是为了防止蒸馏?

还是因为GPU告急,所以根本不想让用户用了?

左右滑动查看

此外,许多试用过的网友,最真实的体感就是:这也太慢了……

1M tokens输出价格是150刀,然后速度是每秒1-3个token,这笔账好像怎么算怎么不对。

有人分析认为,GPT-4.5这么慢,是因为它太大了。或许刚立项那会儿,还是当初模型「越大越好」的年代。

如此看来,OpenAI的领先优势,似乎已经所剩无几了?

网上,各种梗图也是层出不穷。

甚至,已经有前OpenAI研究员跳出来「背刺」了:GPT-4.5表现不佳,50%的责任应该归功于辣鸡的模型架构。

参考资料:JHNYZ

https://x.com/aidan_mclau/status/1895204299040530794

https://x.com/OpenAIDevs/status/1895226704408481893

https://x.com/theo/status/1895220930173116747

https://x.com/aidan_mclau/status/1895207802018341294

https://x.com/_akhaliq/status/1895247370792902733

https://x.com/cursor_ai/status/1895210110714290302

为伟大思想而生!

AI+时代,互联网思想(wanging0123),

第一必读自媒体