最新消息显示,OpenAI公司周一宣布推出一款新的旗舰生成式AI模型,名为GPT-4o,“o”代表“omni”,指的是该模型处理文本、语音和视频的能力。据称,GPT-4o 将在未来几周内在OpenAI的开发人员和面向消费者的产品中“迭代”推出。
OpenAI首席技术官Mira Murati表示,GPT-4o提供“GPT-4级别”的人工智能,但提升了跨多种模式和媒体的能力。

打开网易新闻 查看精彩图片

“GPT-4o通过语音、文本和视觉进行推理,”Mira Murati周一在OpenAI旧金山办公室的流媒体演示中说道:“这非常重要,因为我们正在研究人类与机器之间交互的未来。”
GPT-4 Turbo是OpenAI之前“最先进的”人工智能模型,它接受了图像和文本组合的训练,可以分析图像和文本以完成从图像中提取文本甚至描述这些图像的内容等任务。但GPT-4o的一个重大变化是为人工智能模型添加了语音功能。
这样一来,GPT-4o可能极大地改善OpenAI的人工智能聊天机器人ChatGPT的体验。ChatGPT此前长期以来一直提供语音输入模式,使用文本转语音模型为聊天机器人提供信息,但GPT-4o对此进行了增强,让ChatGPT更像一个真人助手一样与用户进行交互。
在视频中,OpenAI展示了在多种场景下的GPT-4o应用。

打开网易新闻 查看精彩图片

例如,用户可以向由GPT-4o支持的ChatGPT提问,并在ChatGPT回答时打断它,ChatGPT也会根据用户提问的变化及时作出不同的回应。OpenAI表示,该模型提供“实时”响应能力,甚至可以识别用户声音中语气的细微差别,从而生成“一系列不同情感风格”的声音。
演示视频显示,当口头提出问题时,ChatGPT可以在几毫秒内回复,从而使对话更加流畅。ChatGPT几乎可以立即将语音从一种语言翻译成另一种语言,还根据要求唱了一首歌。
GPT-4o还升级了ChatGPT的视觉能力。例如给出一张照片或一个屏幕截图,然后向ChatGPT发问:“此软件代码中发生了什么”“这个人穿什么牌子的衬衫”,ChatGPT就可以根据图像快速回答相关问题,
Mira Murati说,这些功能未来将进一步升级。今天的GPT-4o还只能查看不同语言的菜单图片并进行翻译,但在未来,该模型可以让ChatGPT“观看”现场体育比赛并解释相关竞技规则。
“我们知道这些模型变得越来越复杂,但我们希望交互体验能够变得更加自然、轻松,并且让您根本不关注用户界面,而只关注与ChatGPT的协作,”Mira Murati说道:“在过去的几年里,我们一直非常专注于提高这些模型的智能......但这是我们第一次在易用性方面真正迈出一大步。”
OpenAI声称,GPT-4o的多语言能力也更强,提升了大约面向50种语言的性能。该公司表示,在OpenAI的API(应用程序编程接口)和微软的Azure OpenAI服务中,GPT-4o的速度是GPT-4 Turbo的两倍,价格则只有GPT-4 Turbo的一半,并且速率上限也更高。
目前,并不是所有客户都能使用GPT-4o API的语音功能。OpenAI以担心存在被滥用的风险为由,表示计划在未来几周内首先向“一小群值得信赖的合作伙伴”推出对GPT-4o新音频功能的支持。
从今天开始,GPT-4o可在ChatGPT免费套餐中使用,并向OpenAI高级ChatGPT Plus和Team计划的订阅者提供。OpenAI指出,当用户达到速率限制时,ChatGPT将自动切换到老款GPT-3.5。以GPT-4o为基础的改进版ChatGPT语音体验将在下个月为Plus用户提供alpha版本。

打开网易新闻 查看精彩图片

此外,OpenAI宣布将在网络上发布更新后的ChatGPT UI,其中包含新的、“更具对话性”的主屏幕(以一个大大的黑色圆形为标志)和消息布局,以及适用于macOS的ChatGPT桌面版本,用户可以通过键盘快捷键提问或截图。从今天开始,macOS版本ChatGPT Plus用户将可以访问该应用程序,Windows 版本将在今年晚些时候推出。
GPT Store是OpenAI的库和创建工具,用于基于其AI模型构建的第三方聊天机器人,现在可供ChatGPT免费用户使用。免费用户可以利用以前付费的ChatGPT功能,例如允许ChatGPT “记住”未来交互偏好的记忆功能、上传文件和照片以及在网络上搜索及时问题的答案。
目前,GPT-4仍然是人工智能的标杆。越来越多的初创公司和大型科技公司,包括Anthropic、Cohere和Alphabet Inc. 旗下的谷歌都推出了人工智能模型,均称这些模型在某些基准测试中的性能匹敌或超过了GPT-4。
OpenAI的公告也是在Google I/O开发者大会的前一天发布的。谷歌是人工智能领域的早期领导者,预计将利用这次活动发布更多人工智能更新。
OpenAI首席执行官Sam Altman在周一的博客文章中表示,虽然ChatGPT的原始版本可以让人们使用语言与计算机交互,但使用GPT-4o会感觉到“本质上不同”。
“感觉就像电影中的人工智能。对我来说,它真实得有点令人惊讶,”他说:“事实证明,(人工智能模型)达到人类水平的响应时间和表达能力是一个巨大的变化。”