OpenAI发布GPT-4o，可免费在ChatGPT中使用|gpt-4|openai|神经网络|视频生成模型

OpenAI发布GPT-4o，可免费在ChatGPT中使用

OpenAi春季发布会，上线了GPT-4o，不仅可以免费在ChatGPT中使用，还可以同时处理音频，视频，与输入文本等多种输入信息。

GPT-4o（“o”代表“omni”）它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。模型更加智能，且输入输出方式更加自然，符合人类的交互需求。它可以在短短 232 毫秒内响应音频输入，平均为 320 毫秒，这与人类在对话中的响应时间相似，完全可以跟模型进行实时聊天了，而不是需要等待一段时间，失去了真真聊天的意义。

它在英语和代码文本上的表现与 GPT-4 Turbo 相当，在非英语语言文本上的表现有显著改善，同时 API 也更快、价格便宜 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

在 GPT-4o 之前，可以使用语音模式与 ChatGPT 交谈，平均延迟为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。主要原因是语音模式是一个由三个独立模型组成的系统：一个简单的语音模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个语音模型再将该文本转换回音频。这个过程不仅要使用3个模型，浪费时间，而模型之间并没有交互动作，每个模型完成自己的任务。不仅在交互中会丢失信息，更没聊天的情感在。给人的感觉就是一个冰冷的机器设备。

借助 GPT-4o，OpenAi在文本、视觉和音频上端到端地训练了一个新模型，这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是第一个结合所有这些模式的模型，因此仍然只是在探索该模型可以做什么及其局限性。

GPT-4o 的文本和图像功能已经在 ChatGPT 中推出。并在免费套餐中提供 GPT-4o，并向 Plus 用户提供高达 5 倍的消息限制。OpenAi将在未来几周内在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。

开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，价格降低一半，速率限制提高 5 倍。