OpenAI 比苹果提前展示了什么是真正的语音助手。

北京时间 5 月 14 日 凌晨 1 点, OpenAI 的春季更新活动如期而至。

此次活动中,OpenAI 宣布推出了一个名为“GPT-4o”的新旗舰生成式 AI 模型,以及桌面版 ChatGPT全新的用户界面

重点当然是GPT-4o,单看命名方式似乎这只是“GPT-4”的一个小迭代版本,但它展现出的原生多模态能力可能改变诸多领域,并影响不少初创公司。“o”代表“omni”(全能),从该词可见一斑。

GPT-4o 拥有“GPT-4 级”智能,在其基础上升级了文本、图像功能,并增加了实时语音功能,可提供文本和语音的输入和输出。“GPT-4o 可以综合利用语音、文本和图像信息进行推理。”OpenAI 首席技术官 Mira Murati 在直播中介绍道。

此次春季更新活动,OpenAI 首席执行官 Sam Altman 并未亮相现场,但他在“幕后”发帖力挺新推出的 GPT-4o,并将其称为“智能、快速、原生多模态,是有史以来最优秀的模型”。

打开网易新闻 查看精彩图片

(来源:X)

显然,Sam Altman 所说的“原生多模态”指的是融合了文本、图像和语音功能。他还发帖称,希望尝试使用 GPT-4o 的开发者将可以获得 API,从周一开始就可以使用该新模型构建应用,其价格为 GPT-4 Turbo的一半,但速度可以达到后者的两倍。

此外,GPT-4o 在处理英语文本和编程代码方面达到了 GPT-4 Turbo 的性能水平,对非英语文本的处理能力也有显著提升,特别是在视觉和音频理解方面,GPT-4o 显示出了卓越的性能,显著优于以往的模型。

GPT-4o 的真正亮点在于几乎实时、情感丰富、自然的语音交互上,可以成为一个真正的“个人助理”。它能够处理文本、音频和图像的任意组合输入,并生成相应的多模态输出。其响应速度极快,可以在短短 232 毫秒内响应音频输入,平均反应时间仅为 320 毫秒,与人类在对话中的反应时间相当。

 OpenAI推出GPT-4o原生多模态大模型,实现零延迟、多情感语音交互,且完全免费
打开网易新闻 查看更多视频
OpenAI推出GPT-4o原生多模态大模型,实现零延迟、多情感语音交互,且完全免费

视频 | 与GPT-4o打招呼(来源:YouTube)

在 GPT-4o 引入之前,ChatGPT 的语音模式平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4),且该模式由三个独立模型组合实现。首先,一个专门模型会将用户的语音转录成文本;接着,GPT-3.5 或 GPT-4 根据这些文本生成回复;最后,第三个模型将生成的文本回复转换成语音输出。

这种处理方式,使信息在转换过程中,如音调、不同说话者的声音或背景噪音等重要语音特征无法被直接处理。此外,GPT 模型在输出时也不能模拟笑声、歌声或其他情感表达,这限制了交流的自然性和表现力。

而 GPT-4o 解决或优化了以上问题,该模型通过端到端的方式同时处理文本、视觉和音频输入和输出,这一切都由一个统一的神经网络完成,这种集成化的方法使得模型在处理多模态任务时更为高效和协调,让人机对话更有“沉浸感”。

GPT-4o 的交互不仅是实时的,它还可以识别用户的情绪状态,例如用户呼吸急促,GPT-4o能检测到这种紧张情绪,并给予相应的放松提示。同时,GPT-4o能够根据不同情境生成相应的语音风格,这在讲述故事时表现尤为突出,可以模拟各种人物情感。

GPT-4o 可以看作是人机交互自然化的重要进步,它的应用潜力及其操作界限仍处于初步阶段,还有待进一步探索和实验。

OpenAI 还展示了 GPT-4o 在日常场景中的一些应用,从娱乐到教育,从社交到专业辅助,表明它能够在多个方面辅助人类。比如,提高视障人士的生活质量、实时翻译、帮助学习新语言、在线会议或面试中的辅助交流、与宠物互动、玩游戏等。

打开网易新闻 查看精彩图片

图 | GPT-4o的能力展示(来源:YouTube)

我们可以从一个视频中实际看到 GPT-4o 的具体能力。

 OpenAI推出GPT-4o原生多模态大模型,实现零延迟、多情感语音交互,且完全免费
打开网易新闻 查看更多视频
OpenAI推出GPT-4o原生多模态大模型,实现零延迟、多情感语音交互,且完全免费

视频 | 用 GPT-4o 指点和学习西班牙语(来源:YouTube)

此外,OpenAI 也意识到 GPT-4o 的音频模式可能带来的新风险,在发布时,将仅限于选择预设语音,并严格遵循现有的安全政策。接下来的几周和几个月内,OpenAI 将专注于完善技术基础设施、增强模型的训练后可用性,并确保各种输出模式的安全性。

未来数周内,GPT-4o 将分阶段逐步整合到 OpenAI 旗下的产品中,首先向 ChatGPT Plus 和 Team 用户推出,然后是企业版用户,并逐步向 ChatGPT 免费用户推出,而付费用户将继续“拥有五倍于免费用户的容量限制”。

打开网易新闻 查看精彩图片

图 | 现在一些用户已经可以使用 GPT-4o(来源:ChatGPT)

除了浓墨重彩地介绍 GPT-4o,OpenAI 此次还推出了 macOS 桌面版 ChatGPT(用户可以通过快捷键对桌面进行截屏并向 ChatGP 提问,而 Windows 版本预计将于今年晚些时候推出),以及新版用户界面,旨在让人机交互变得更友好、更具对话性。

在 Mira Murati 看来,如今的 AI 模型变得越来越复杂,但我们希望人机交互体验能够变得更自然、更简单,让用户完全不用关注界面,而只关注与模型的协作。“这一点非常重要,因为我们正在展望人机交互的未来。”她表示。

参考资料:

1.https://openai.com/

2.https://openai.com/index/hello-gpt-4o/

3.https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/