打开网易新闻 查看精彩图片

没有GPT-5,没有AI搜索引擎,这次OpenAI2024春季发布会的最重磅产品更新,是最新的旗舰型号模型,GPT-4o。

北京时间5月14日凌晨1点,OpenAI 2024 春季发布会在线上进行了直播。本次发布会共有如下5个主题:

  • OpenAI的愿景;
  • ChatGPT桌面版及web版本的UI升级;
  • GPT-4o模型;
  • GPT-4o免费开放;
  • GPT-4o的现场实测demo;

OpenAI 24春季发布会的会议议程
打开网易新闻 查看精彩图片
OpenAI 24春季发布会的会议议程

可以看出,本次发布会总结来说,重头戏就是最新版的旗舰型号模型,GPT-4o。

一.更自然的语音交互体验

一.更自然的语音交互体验

先来看看GPT-4o的官方介绍。

打开网易新闻 查看精彩图片

GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
它可以在短至 232 毫秒的时间内响应音频输入,平均时间为 320 毫秒,与人类在正常对话中的响应时间近似。
它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语的其他语言上的文本性能显著提高,同时 API 的速度也更快,成本降低了 50%。
与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

GPT-4o的能力提升,始终围绕着一个关键点:更自然的人机交互方式。

首先,模型最主打的特性就是快速实时的音频响应。

在此前,用户使用ChatGPT的音频交互能力时,平均需要等待2.8秒(GPT-3.5)或 5.4 秒(GPT-4),而GPT-4o将相应时间压缩到了平均320毫秒。

在现场的实际演示中,ChatGPT与用户的交流确实如同人类间的自然对话一样,几乎在用户完成语音输入的同时,ChatGPT就能给出回复。

同时,模型输出的语音结果还具备了语气、语调,甚至能够发出拟声词(比如赞叹、大笑等)。

在测试中,用户让ChatGPT切换了几种不同的语气语调来讲故事,不论是自然语调、戏剧性语调、史诗语调,还是机器人语调,ChatGPT都能快速响应。

在故事结尾,用户命令ChatGPT用唱歌的方式来讲完故事时,ChatGPT立刻就用唱歌的形式进行了输出,将故事的结尾变成一句歌词。

此外,在GPT-4o模型支持下,用户不再需要跟ChatGPT进行对讲机时的线性交互。

在ChatGPT输出语音的同时,用户可以发出新的语音指令来打断ChatGPT“说话”,这时ChatGPT会停止输出,转而听取用户新的指令,并做出响应。

在现场,OpenAI 还现场响应了 twitter上用户提出的尝试要求,让ChatGPT充当同传翻译。

只需要进行简单的语音prompt,ChatGPT就立刻实现了充当一名专业同传人员。

用户说出的指令是:“你现在是一名翻译人员,我和我的朋友在聊天,但是她只会说意大利语,我只会说英语。我需要你在听到英语时,翻译成意大利语;在听到意大利语时,翻译成英语。”

二.让模型“看”世界

二.让模型“看”世界

除了强大的音频输入输出能力外,GPT-4o还具备了“看”世界的能力。

发布会现场演示手写方程问题识别的能力
打开网易新闻 查看精彩图片
发布会现场演示手写方程问题识别的能力

搭载了GPT-4o的新版ChatGPT App,在页面左下角新增了一个相机的图标。点击后,ChatGPT会打开手机摄像头,实时读取当前摄像头所捕捉到的画面。

在现场演示中,用户请求ChatGPT帮助他解一道数学题。

在一张白纸上写下 3X + 1 = 4 后,打开摄像头对准,ChatGPT几乎立刻就复述了题目。

由于用户的指令是让ChatGPT引导他解出题目,而不是直接告诉他答案,随着用户根据ChatGPT给出的方法逐渐写下新的方程式时,ChatGPT也能立刻给出下一步的提示,直至完成解答。

可以实时快速识别用户新的手写内容
打开网易新闻 查看精彩图片
可以实时快速识别用户新的手写内容

除了识别数学符号外,现场还演示了识别文字和符号的能力。

可以识别手写文字和简单符号
打开网易新闻 查看精彩图片
可以识别手写文字和简单符号

在看到手写版文字外加符号的纸后,ChatGPT立刻明白了这句话的含义,甚至还立刻“撒了个娇”。

在本次发布会新推出的桌面版ChatGPT中,一样提供了获取实时视觉信息的能力。

在现场演示中,用户请求ChatGPT帮助他解决一个代码问题。

在全部选中屏幕上的代码后,点击“复制”,再切换到ChatGPT应用中,点击粘贴,ChatGPT几乎立刻就“看到了”用户的全部代码,并给出了分析。

在桌面版ChatGPT中一键复制粘贴代码
打开网易新闻 查看精彩图片
在桌面版ChatGPT中一键复制粘贴代码

在另一个demo中,用户点击了ChatGPT左下角的电脑显示器图标,ChatGPT中就立刻显示出了用户选中范围内的屏幕上的实时图像。

桌面版支持实时读取用户屏幕中指定位置的画面
打开网易新闻 查看精彩图片
桌面版支持实时读取用户屏幕中指定位置的画面

三.GPT-4o官方参数一览

三.GPT-4o官方参数一览

在产品能力层面,官网在直播后也迅速进行了更新,放出了模型的评估结果和与其他模型的对比结果。

GPT-4o文本处理能力评估
打开网易新闻 查看精彩图片
GPT-4o文本处理能力评估

文本处理能力方面,在官方给出的6个维度的测评中,除了最后两项能力之外,其余能力域的测试结果均能取得参与测评的7种模型中的第一。

MGSM能力域与第一的Claude 3 Opus相差很小,DROP能力域为第三名,略微落后GPT-4 Turbo和Llama 3 400b。

(6项能力域从左至右依次为:大规模多任务语言理解MMLU、专业领域能力测试GPQA、数学能力MATH、代码能力HumanEval、多语言小学数学能力MGSM、离散段落推理能力DROP)

GPT-4o音频翻译能力评估
打开网易新闻 查看精彩图片
GPT-4o音频翻译能力评估
GPT-4o图像识别能力评估
打开网易新闻 查看精彩图片
GPT-4o图像识别能力评估

在音频翻译和视觉理解能力方面,GPT-4o均取得了测评的第一名。

GPT-4o目前版本拥有128k的上下文处理能力,知识库的更新时间截止到2023年10月。

GPT-4o不仅提供ChatGPT内置版本,同样也开放了API调用的能力。

对比GPT-4 Turbo,新版本的模型API响应速度提升了2倍,价格降低了一半,并且速率限制提升了5倍。

GPT-4o API 对比 GPT-4 Turbo API 的能力提升
打开网易新闻 查看精彩图片
GPT-4o API 对比 GPT-4 Turbo API 的能力提升
GPT-4o API 定价
打开网易新闻 查看精彩图片
GPT-4o API 定价
GPT-4 Turbo API 定价
打开网易新闻 查看精彩图片
GPT-4 Turbo API 定价

目前官网给出的定价是,每百万输入token 5美元,每百万输出 15美元,而GPT-4 Turbo的价格分别是 10美元和30美元。

四. 何时才能用上

四. 何时才能用上

根据官网上给出的信息,GPT-4o模型的全部能力会在之后通过逐步迭代的方式推出。

(原文:GPT-4o’s capabilities will be rolled out iteratively.)

从今天发布会后,OpenAI会优先开放给扩大规模后的红队,首先开始进行试用。

GPT-4o的文字和图像能力,会在发布会后更新进ChatGPT中(截止凌晨3点,ChatGPT暂未进行更新)。

更新后的ChatGPT中,GPT-4o将允许免费用户直接进行使用,而对于订阅了Plus的用户,将会开放比免费用户多5倍的消息限制。

打开网易新闻 查看精彩图片

对于本次发布会上重点演示的语音能力——在随后的数周内,搭载了GPT-4o的新版语音模式将会更新至ChatGPT中。

OpenAI此番赶在谷歌I/O大会前一天进行的春季发布会,对比之前大众的预期来说,还是缺少了些力度的。

虽然新版GPT-4o的语音能力足够惊艳,但对比之前放出的各种烟雾弹,GPT-5、AI搜索引擎来说,还是缺少了些重量。

对于ChatGPT用户免费、API费用降价一半也确实是提供了足够的诚意,但何时才有下一代颠覆性的模型或产品更新,才是外界对这家公司最关心的地方。