奥特曼因为陪孩子,缺席的GPT4.5发布会,其实还是有看点的。
ㅤ
理解其在OpenAI家族中的定位,不是推理模型,不是O系列的,所以图1 中,4.5整体各领域分数比4o都强,但是GPQA(科学)、AIME24(数学)等都不及O3。
4.5最大性能提升是『高情商』,这点根据图2比较好理解,以前都大模型是F型人格,安慰人『你怎么样?』,现在T型人格,会直接问:『你怎么办?』。 ㅤ
还有重要提升,从图3可以理解,GPT模型做自画像,图像生成能力从文字跨越到SVG矢量图形,经历了从抽象到逼真的演变。 ㅤ
从图4看,Scaling law确实要撞墙了,用了超多算力,做了一个巨大的模型,但是基准测试比4o能力只提升了5%,还比DeePSeek V3输入输出Token贵了272倍,这还有什么竞争力! ㅤ
而从图5看,对于编码能力来说,昨天发布的Claude 3.7还是最强王者,对于程序员行业有重大影响!4.5在这方面没什么可期待。 ㅤ
总之来看,这是个过渡模型,为GPT5做准备,预训练侧的大模型提升确实有限了,能力增长还得看推理侧。
热门跟贴