OpenAI 重磅发布 GPT-4o ：见证《Her》的诞生！|Her|gpt-4|her|openai|模态|神经网络|翻译

北京时间5月14日凌晨，备受期待的 OpenAI 春季更新发布会上，CTO Mira Murati 宣布发布新的模型迭代版本——GPT-4o，o 代表「omnimodel」（全能模型），原生多模态，改进了文本、视觉和音频的能力。

GPT-4o 将对所有 ChatGPT 用户免费开放，在未来几周内推出，并将同步提供 API，相比 GPT-4 Turbo 价格更低、速度更快。

发布会之后，Sam Altman 在 X 上发表的推文，只有一个词——Her，可以说是很炫耀地介绍新的 GPT-4o 了。

原生多模态

实时语音交流

GPT-4o 能够跨越语音、文本和视觉进行推理和交流，Altman 在 X 的发帖说其是原生多模态。所有的输入和输出都由同一个神经网络处理，GPT-4o 是 OpenAI 第一个结合了所有这些模态的模型。

在官方的演示中，ChatGPT 的语音交流速度非常快，可以在232毫秒内响应语音输入，平均320毫秒，与人类反应时间类似。而在此之前，与 ChatGPT 对话的平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。

而且与现有的其他语音模式相比：

可以随时打断模型的语音输出，

实时，没有尴尬的停顿，

理解情感，并能以不同的情感风格生成语音。

GPT-4o 也提高了 ChatGPT 的视觉能力，提供一张图片或者照片——甚至直接开启相机，ChatGPT 都能很快识别图片里的内容，并且给予准确的答复，从解读代码、数学题识别到人脸的情绪识别，都能轻松识别。

同样强大的语音能力，在语音翻译上自然也不遑多让。发布会上演示的意大利语和英语交流时的同声翻译，让人印象深刻。

在官网发布的能力测试报告中，多模态的成绩让人惊喜。

在一些多模态的基准测试集上全面超越之前的模型，可以看到 GPT-4o 在视觉感知基准上实现了碾压。

更便宜、更快

更多语言能力提升

GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。OpenAI 将向所有用户免费提供 GPT-4o，并为 Plus 用户提供高达5倍的消息数量限制。OpenAI 将在未来几周内在 ChatGPT Plus 中推出带有 GPT-4o 的新版本语音模式的 alpha 版本。

开发者现在也可以通过 API 以文本和视觉模型的形式访问 GPT-4o。与 GPT-4 Turbo 相比，GPT-4o 的价格是 GPT-4-turbo 的一半，速度是其两倍，并且速率限制是5倍。

GPT-4o 还是一种多语言的模型，OpenAI 声称，它在50种不同语言中的性能都有所提高。并且针对其中的20种语言，新的分词法带来更好的压缩效果。

以中文为例，token 消耗比之前减少1.4倍，演示例句「你好，我的名字是 GPT-4o。我是一种新型的语言模型，很高兴见到你!」从34 tokens 降低到24 tokens。

此外，OpenAI 即将发布一个桌面客户端以及新的界面 UI，在 web 和 app 之外给了用户另外一种选择。从今天开始逐步向 Plus 用户推出 macOS 应用程序，并将在接下来的几周内持续扩大范围。在今年晚些时候会推出 Windows 版本。

Mac 版本的 ChatGPT 演示

Web 端的新 UI

在官网的展示视频中， OpenAI 的工作人员让两个 ChatGPT 进行交流，AI 的语音和视觉识别能力让人印象深刻，以及最后的唱歌片段，都让人想起了电影《Her》中的 AI。

OpenAI 重磅发布 GPT-4o ：见证《Her》的诞生！

热搜

热门跟贴

热搜

热门跟贴

相关推荐

OpenAI联创Greg最新采访：为什么OpenAI最先做出GPT-4？

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

最猛AI独角兽一年估值1700亿，再造OpenAI！马斯克LeCun吵起来了

AI智能体的炒作与现实：GPT-4都撑不起，现实任务成功率不到15%

分析师，很遗憾，GPT-4解读财报确实更好！

GPT-4 更强的标志，原来藏在了 logo 里

从零手搓MoE大模型，大神级教程来了

CVPR‘24：与任务无关的多模态数据也能提升Transformer性能

剑桥团队开源：首个预训练通用多模态后期交互知识检索器

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

“离谱的AI扩图”火了！张张那叫一个出其不意

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

马斯克：AI时代人人高收入，不需要工作，商品服务不再短缺，可能性80%

五大AI聊天机器人盲测！ChatGPT未能夺冠，最终赢家竟来自这家“小公司”

独角兽被微软挖角，新团队首曝光！情感AI嵌入机器人，超大内存升级情感体验

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

无条件支持俄“历史性领土”！你到底是哪国人？

官方确认已不幸离世，年仅31岁

港大字节提出多模态大模型新范式，模拟人类先感知后认知

GPT-4找到我女朋友的过敏原