未来已来：OpenAI一夜改变人机交互历史，全新“类人模型”能力爆表，自然交流如真人

36氪

2024-05-14 11:29 ·北京

千呼万唤的OpenAI发布会终于在谷歌I/O大会的前一天来了！

OpenAI放了那么多烟雾弹，总算揭晓谜底了。

图片：来自网络

果然就像Sam Altman提前辟谣的一样，不是OpenAI搜索引擎，不是GPT-5。

但Altman没说的是，这场发布会，让 人类与计算机的交互进入到了一个新的时代!

发布会的主角是OpenAI的CTO Mira Murati。 ‍

图片：来自网络

她亲自发布GPT-4的一个大升级版本——GPT-4o！

图片：来自网络

这个新模型的功能简单一句话概括，它能像人一样，可以原生利用语音，文字，图像进行推理和交互。

就像这个后缀“o”代表的“omni”意味“全知”一样，这个模型 综合了几乎所有模态的智力，还能充分感知人类的情感。

几乎就是把电影《Her》中的那个和主人公谈恋爱的AI助手Samantha，从大荧幕里搬到了现实。

图片：来自网络

除新模型之外，发布会的几大亮点：

1. GPT-4地位往下顺移一位，向所有用户免费开放。

网页截屏

2. GPT-4o API，比GPT 4-Turbo快2倍，价格还只有一半。

网页截屏

3. 外界猜测的语音助手的演示：对话更像人、能实时翻译，识别表情，可以通过摄像头识别画面写代码分析图表等能力。

4. ChatGPT新UI，以及一个新的ChatGPT桌面应用程序，率先登录macOS，Windows 版本晚些时候上线。

先通过几个演示来看看这个新模型带来的全新体验：

平均320毫秒的语音交互延迟，让这个模型能达到人类级别的交互体验。

视频中演示的实时翻译，英语和西语的交互相当流畅， 中间的延迟甚至比专业同声传译还要低。

具备强大多模态能力与流畅交互，GPT-4o能化身一位亲切的双语老师——用户指着苹果、香蕉和毛绒玩具，用英文问GPT-4o对应的西班牙语表达，它都能在晃动的镜头中准确识别，实时译成西语。

全新的原生多模态能力，又让GPT-4o 能成为视障人士的”眼” ——不仅能看到白金汉宫上的旗帜，还能将背后的君主历史娓娓道来；一只嬉戏的鸭子突然潜入水中，GPT-4o能生动描述；有车从面前经过，GPT-4o也能及时提醒。

而OpenAI的灵魂人物Sam Altman虽然没有亲自出镜发布会，但是他在发布会之后在X上发表了一篇博客，和外界交流了他自己认为的发布会背后自己最看重的地方。

地址：https://blog.samaltman.com/gpt-4o

主要内容总结起来就是以下两点：

通过这次发布，OpenAI做到了，并将继续坚持：

首先，让全世界人都能在没有广告以及其他负担的前提下使用这个世界上最好的AI服务，然后为愿意付钱的人提供其他的价值，让OpenAI能作为一家企业继续向全世界的用户免费提供这样的服务。

然后，通过团队的不断努力，他们将人机交互的体验推进到了前所未有的高度——GPT-4o的能力让人类真正地能和计算机自然的交流，这一点将开拓一个新的时代。

最先推出原生多模态大模型的是谷歌，但是OpenAI却用这个能力做出了第一个“像人类一样的模型”。

现在OpenAI的肌肉秀出来了，谷歌I/O大会的工作人员准备好熬夜改PPT了吗？

图片：来自网络

模型性能依旧保持SOTA，多模态能力创新高

根据传统基准测试，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上实现突破。

图片：来自网络

改进推理

GPT-4o 在 0-shot COT MMLU（常识问题）上创下了 88.7% 的新高。此外，在传统的5-shot no-CoT MMLU上，GPT-4o创下了87.2%的新高分。（注：Llama3 400b还没有正式发布）

图片：来自网络

音频 ASR 性能

GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。

图片：来自网络

音频翻译性能

GPT-4o 在语音翻译方面树立了新的最先进水平，并且在 MLS 基准测试中优于 Whisper-v3。

图片：来自网络

M3Exam

M3Exam 基准测试既是多语言评估也是视觉评估，由来自其他国家标准化测试的多项选择题组成，有时还包括图形和图表。在所有语言的基准测试中，GPT-4o 都比 GPT-4 更强。（我们省略了斯瓦希里语和爪哇语的视力结果，因为这些语言的视力问题只有 5 个或更少。

图片：来自网络

视觉理解评估

GPT-4o 在视觉感知基准上实现了最先进的性能。

人类与计算机的交互，从未像今天一样自然丝滑

GPT-4o此经推出，《Her》也成了纪录片了。GPT-4o的女声，听上去和电影中类似，奥特曼首先啥也不说，就发了个“her”的推文，也算蹭了一波奥斯卡流量。

（温馨提醒——得知AI能同时谈成百上千个，男主表示很崩溃）

网页截屏

光说不练假把式——OpenAI给出了GPT-4o的丰富实用的演示。

文章开始展示的视障人士用例，就是技术普惠的真实写照。但GPT-4o不只“实用”，情绪价值也拉满。 从前用文本展现的多样人格，GPT-4o能用声音扮演。

唱生日歌之前，还会郑重其事地清清嗓子：我要开始唱咯。

面试培训，GPT-4o在提供实用建议的同时，做到毕恭毕敬。这位工作人员准备戴上渔夫帽去面试，GPT-4o先职业夸赞一番，然后才劝他换下。

GPT老师教子有方，循循善诱。孩子做错题也不发火，补充背景知识和概念；回答正确也不忘夸夸—— “你做得太棒了”“伟大的推论” 。

网友表示：给大学生家教搞钱留条活路吧，求求了！

网页截屏

有意思的是，在多人会议的demo中，GPT-4o可以分出不同说话人 “易如反掌”，适时“插嘴”，融入聊天如德芙般丝滑，毫无压力。

听到有人说到自己和孩子养了只德牧，GPT-4o 还 声情并茂 地描述了孩子与狗玩耍的场景，评论道，“非常可爱”。

多人小会后还能作总结。不如以后毕业生就拿它来练群面吧，秋招无压力。

（有网友指出，会议居然是在Google Meets而非Microsoft Teams里开的，是因为Teams难用吗?

GPT-4o厉害着呢，最会阴阳怪气。比如轻松切换“嘲讽模式”后，真就mean girl本girl——听过的人表示，已经在美国高中被啦啦队长霸凌了。

网友的“嘲讽之嘲讽： fine，这个功能真的很实用呢（白眼）~谢谢你哦，OpenAI（微笑）

网页截屏

在最新访谈中，奥特曼提到自己对智能体助理的要求：不只是执行，也要会“插嘴”，作能提供情绪价值打工人。

英伟达首席科学家Jim Fan评论，GPT-4o如此活泼，甚至有点调情的意味在里头，演得过于用力了。

他指出，这是在向更具情感及个性AI进行转变， 但OpenAI 过去似乎努力抑制这种倾向。OpenAI 正在蚕食 Character AI 的市场份额，因为在产品形态及分销渠道方面几乎 100% 重叠。

又多又全的多模态能力，美工的饭碗还好吗？

GPT-4o不但支持音视频的上传，在文生图领域，GPT-4o轻松地绕过了Midjourney和Stable Diffusion的缺点，让设计和美工的饭碗再次颤抖。

在官网给出的示例中，GPT-4o可以直接用文字生成类似手帐的手写体排版，并支持改变颜色和纸张样式。

图片：来自网络

图片：来自网络

在文生图领域，令人诟病的另一点在于其“不可控”——开局一句话，出图全靠摇。

然而GPT-4o在对话界面就能做到对上文中的图像进行微调。

这是第一轮生成的海报图片，可以看到画面中人物的脸有较为明显的变形，且画面质量不高。

图片：来自网络

使用者再次输入指令：“这是同一张海报，但经过清理。文字更加清晰，颜色更加大胆、更具戏剧性。整个形象现在得到了改善。”

图片：来自网络

之后你就会得到一张经过明显改善的海报，同时文字也是合理且清晰—— 没有文字恐怖谷。

图片：来自网络

除了平面设计，GPT-4o也可以生成3D动态模型。

图片：来自网络

图片：来自网络

还可以生成产品图示例，并且支持提供参考图改变构图和材质（海外电商的生产力工具）。

图片：来自网络

附上要求和参考图，GPT-4o就可以根据2023年的纪念币生成2024年新版本：

图片：来自网络

在艺术创作领域，GPT-4o的连贯性很高，在同一组对话和上下文中生成的漫画风格和人物的脸都是统一的。

图注：GPT-4o生成的人物设计任务- 邮递员Sally部分图片。

先别管AGI的事，可以肯定的是，GPT-4o实打实地让AIGC生产力工具再上一个台阶。

OpenAI也继续保持着AI行业技术能力和产品化能力标杆的地位。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴