语音交互更自然、让模型“有了眼睛”：OpenAI 推出新模型GPT-4o

四木相对沦

2024-05-14 11:35 ·北京

没有GPT-5，没有AI搜索引擎，这次OpenAI2024春季发布会的最重磅产品更新，是最新的旗舰型号模型，GPT-4o。

北京时间5月14日凌晨1点，OpenAI 2024 春季发布会在线上进行了直播。本次发布会共有如下5个主题：

OpenAI的愿景；
ChatGPT桌面版及web版本的UI升级；
GPT-4o模型；
GPT-4o免费开放；
GPT-4o的现场实测demo；

OpenAI 24春季发布会的会议议程

可以看出，本次发布会总结来说，重头戏就是最新版的旗舰型号模型，GPT-4o。

一.更自然的语音交互体验

一.更自然的语音交互体验

先来看看GPT-4o的官方介绍。

GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。
它可以在短至 232 毫秒的时间内响应音频输入，平均时间为 320 毫秒，与人类在正常对话中的响应时间近似。
它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，在非英语的其他语言上的文本性能显著提高，同时 API 的速度也更快，成本降低了 50%。
与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

GPT-4o的能力提升，始终围绕着一个关键点：更自然的人机交互方式。

首先，模型最主打的特性就是快速实时的音频响应。

在此前，用户使用ChatGPT的音频交互能力时，平均需要等待2.8秒（GPT-3.5）或 5.4 秒（GPT-4），而GPT-4o将相应时间压缩到了平均320毫秒。

在现场的实际演示中，ChatGPT与用户的交流确实如同人类间的自然对话一样，几乎在用户完成语音输入的同时，ChatGPT就能给出回复。

同时，模型输出的语音结果还具备了语气、语调，甚至能够发出拟声词（比如赞叹、大笑等）。

在测试中，用户让ChatGPT切换了几种不同的语气语调来讲故事，不论是自然语调、戏剧性语调、史诗语调，还是机器人语调，ChatGPT都能快速响应。

在故事结尾，用户命令ChatGPT用唱歌的方式来讲完故事时，ChatGPT立刻就用唱歌的形式进行了输出，将故事的结尾变成一句歌词。

此外，在GPT-4o模型支持下，用户不再需要跟ChatGPT进行对讲机时的线性交互。

在ChatGPT输出语音的同时，用户可以发出新的语音指令来打断ChatGPT“说话”，这时ChatGPT会停止输出，转而听取用户新的指令，并做出响应。

在现场，OpenAI 还现场响应了 twitter上用户提出的尝试要求，让ChatGPT充当同传翻译。

只需要进行简单的语音prompt，ChatGPT就立刻实现了充当一名专业同传人员。

用户说出的指令是：“你现在是一名翻译人员，我和我的朋友在聊天，但是她只会说意大利语，我只会说英语。我需要你在听到英语时，翻译成意大利语；在听到意大利语时，翻译成英语。”

二.让模型“看”世界

二.让模型“看”世界

除了强大的音频输入输出能力外，GPT-4o还具备了“看”世界的能力。

发布会现场演示手写方程问题识别的能力

搭载了GPT-4o的新版ChatGPT App，在页面左下角新增了一个相机的图标。点击后，ChatGPT会打开手机摄像头，实时读取当前摄像头所捕捉到的画面。

在现场演示中，用户请求ChatGPT帮助他解一道数学题。

在一张白纸上写下 3X + 1 = 4 后，打开摄像头对准，ChatGPT几乎立刻就复述了题目。

由于用户的指令是让ChatGPT引导他解出题目，而不是直接告诉他答案，随着用户根据ChatGPT给出的方法逐渐写下新的方程式时，ChatGPT也能立刻给出下一步的提示，直至完成解答。

可以实时快速识别用户新的手写内容

除了识别数学符号外，现场还演示了识别文字和符号的能力。

可以识别手写文字和简单符号

在看到手写版文字外加符号的纸后，ChatGPT立刻明白了这句话的含义，甚至还立刻“撒了个娇”。

在本次发布会新推出的桌面版ChatGPT中，一样提供了获取实时视觉信息的能力。

在现场演示中，用户请求ChatGPT帮助他解决一个代码问题。

在全部选中屏幕上的代码后，点击“复制”，再切换到ChatGPT应用中，点击粘贴，ChatGPT几乎立刻就“看到了”用户的全部代码，并给出了分析。

在桌面版ChatGPT中一键复制粘贴代码

在另一个demo中，用户点击了ChatGPT左下角的电脑显示器图标，ChatGPT中就立刻显示出了用户选中范围内的屏幕上的实时图像。

桌面版支持实时读取用户屏幕中指定位置的画面

三.GPT-4o官方参数一览

三.GPT-4o官方参数一览

在产品能力层面，官网在直播后也迅速进行了更新，放出了模型的评估结果和与其他模型的对比结果。

GPT-4o文本处理能力评估

文本处理能力方面，在官方给出的6个维度的测评中，除了最后两项能力之外，其余能力域的测试结果均能取得参与测评的7种模型中的第一。

MGSM能力域与第一的Claude 3 Opus相差很小，DROP能力域为第三名，略微落后GPT-4 Turbo和Llama 3 400b。

（6项能力域从左至右依次为：大规模多任务语言理解MMLU、专业领域能力测试GPQA、数学能力MATH、代码能力HumanEval、多语言小学数学能力MGSM、离散段落推理能力DROP）

GPT-4o音频翻译能力评估

GPT-4o图像识别能力评估

在音频翻译和视觉理解能力方面，GPT-4o均取得了测评的第一名。

GPT-4o目前版本拥有128k的上下文处理能力，知识库的更新时间截止到2023年10月。

GPT-4o不仅提供ChatGPT内置版本，同样也开放了API调用的能力。

对比GPT-4 Turbo，新版本的模型API响应速度提升了2倍，价格降低了一半，并且速率限制提升了5倍。

GPT-4o API 对比 GPT-4 Turbo API 的能力提升

GPT-4o API 定价

GPT-4 Turbo API 定价

目前官网给出的定价是，每百万输入token 5美元，每百万输出 15美元，而GPT-4 Turbo的价格分别是 10美元和30美元。

四. 何时才能用上

四. 何时才能用上

根据官网上给出的信息，GPT-4o模型的全部能力会在之后通过逐步迭代的方式推出。

（原文：GPT-4o’s capabilities will be rolled out iteratively.）

从今天发布会后，OpenAI会优先开放给扩大规模后的红队，首先开始进行试用。

GPT-4o的文字和图像能力，会在发布会后更新进ChatGPT中（截止凌晨3点，ChatGPT暂未进行更新）。

更新后的ChatGPT中，GPT-4o将允许免费用户直接进行使用，而对于订阅了Plus的用户，将会开放比免费用户多5倍的消息限制。

对于本次发布会上重点演示的语音能力——在随后的数周内，搭载了GPT-4o的新版语音模式将会更新至ChatGPT中。

OpenAI此番赶在谷歌I/O大会前一天进行的春季发布会，对比之前大众的预期来说，还是缺少了些力度的。

虽然新版GPT-4o的语音能力足够惊艳，但对比之前放出的各种烟雾弹，GPT-5、AI搜索引擎来说，还是缺少了些重量。

对于ChatGPT用户免费、API费用降价一半也确实是提供了足够的诚意，但何时才有下一代颠覆性的模型或产品更新，才是外界对这家公司最关心的地方。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴