OpenAI推出GPT-4o原生多模态大模型，实现零延迟、多情感语音交互，且完全免费|gpt-4|openai|人机交互|插件功能|模态

OpenAI 比苹果提前展示了什么是真正的语音助手。

北京时间 5 月 14 日凌晨 1 点， OpenAI 的春季更新活动如期而至。

此次活动中，OpenAI 宣布推出了一个名为“GPT-4o”的新旗舰生成式 AI 模型，以及桌面版 ChatGPT 和全新的用户界面。

重点当然是GPT-4o，单看命名方式似乎这只是“GPT-4”的一个小迭代版本，但它展现出的原生多模态能力可能改变诸多领域，并影响不少初创公司。“o”代表“omni”（全能），从该词可见一斑。

GPT-4o 拥有“GPT-4 级”智能，在其基础上升级了文本、图像功能，并增加了实时语音功能，可提供文本和语音的输入和输出。“GPT-4o 可以综合利用语音、文本和图像信息进行推理。”OpenAI 首席技术官 Mira Murati 在直播中介绍道。

此次春季更新活动，OpenAI 首席执行官 Sam Altman 并未亮相现场，但他在“幕后”发帖力挺新推出的 GPT-4o，并将其称为“智能、快速、原生多模态，是有史以来最优秀的模型”。

（来源：X）

显然，Sam Altman 所说的“原生多模态”指的是融合了文本、图像和语音功能。他还发帖称，希望尝试使用 GPT-4o 的开发者将可以获得 API，从周一开始就可以使用该新模型构建应用，其价格为 GPT-4 Turbo的一半，但速度可以达到后者的两倍。

此外，GPT-4o 在处理英语文本和编程代码方面达到了 GPT-4 Turbo 的性能水平，对非英语文本的处理能力也有显著提升，特别是在视觉和音频理解方面，GPT-4o 显示出了卓越的性能，显著优于以往的模型。

GPT-4o 的真正亮点在于几乎实时、情感丰富、自然的语音交互上，可以成为一个真正的“个人助理”。它能够处理文本、音频和图像的任意组合输入，并生成相应的多模态输出。其响应速度极快，可以在短短 232 毫秒内响应音频输入，平均反应时间仅为 320 毫秒，与人类在对话中的反应时间相当。

OpenAI推出GPT-4o原生多模态大模型，实现零延迟、多情感语音交互，且完全免费

视频 | 与GPT-4o打招呼（来源：YouTube）

在 GPT-4o 引入之前，ChatGPT 的语音模式平均延迟为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4），且该模式由三个独立模型组合实现。首先，一个专门模型会将用户的语音转录成文本；接着，GPT-3.5 或 GPT-4 根据这些文本生成回复；最后，第三个模型将生成的文本回复转换成语音输出。

这种处理方式，使信息在转换过程中，如音调、不同说话者的声音或背景噪音等重要语音特征无法被直接处理。此外，GPT 模型在输出时也不能模拟笑声、歌声或其他情感表达，这限制了交流的自然性和表现力。

而 GPT-4o 解决或优化了以上问题，该模型通过端到端的方式同时处理文本、视觉和音频输入和输出，这一切都由一个统一的神经网络完成，这种集成化的方法使得模型在处理多模态任务时更为高效和协调，让人机对话更有“沉浸感”。

GPT-4o 的交互不仅是实时的，它还可以识别用户的情绪状态，例如用户呼吸急促，GPT-4o能检测到这种紧张情绪，并给予相应的放松提示。同时，GPT-4o能够根据不同情境生成相应的语音风格，这在讲述故事时表现尤为突出，可以模拟各种人物情感。

GPT-4o 可以看作是人机交互自然化的重要进步，它的应用潜力及其操作界限仍处于初步阶段，还有待进一步探索和实验。

OpenAI 还展示了 GPT-4o 在日常场景中的一些应用，从娱乐到教育，从社交到专业辅助，表明它能够在多个方面辅助人类。比如，提高视障人士的生活质量、实时翻译、帮助学习新语言、在线会议或面试中的辅助交流、与宠物互动、玩游戏等。