OpenAI发布GPT-4o,可免费在ChatGPT中使用

OpenAi春季发布会,上线了GPT-4o,不仅可以免费在ChatGPT中使用,还可以同时处理音频,视频,与输入文本等多种输入信息。

GPT-4o(“o”代表“omni”)它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。模型更加智能,且输入输出方式更加自然,符合人类的交互需求。它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似,完全可以跟模型进行实时聊天了,而不是需要等待一段时间,失去了真真聊天的意义。

它在英语和代码文本上的表现与 GPT-4 Turbo 相当,在非英语语言文本上的表现有显著改善,同时 API 也更快、价格便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

在 GPT-4o 之前,可以使用语音模式与 ChatGPT 交谈,平均延迟为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。主要原因是语音模式是一个由三个独立模型组成的系统:一个简单的语音模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个语音模型再将该文本转换回音频。这个过程不仅要使用3个模型,浪费时间,而模型之间并没有交互动作,每个模型完成自己的任务。不仅在交互中会丢失信息,更没聊天的情感在。给人的感觉就是一个冰冷的机器设备。

借助 GPT-4o,OpenAi在文本、视觉和音频上端到端地训练了一个新模型,这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是第一个结合所有这些模式的模型,因此仍然只是在探索该模型可以做什么及其局限性。

GPT-4o 的文本和图像功能已经在 ChatGPT 中推出。并在免费套餐中提供 GPT-4o,并向 Plus 用户提供高达 5 倍的消息限制。OpenAi将在未来几周内在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。

开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。