打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

5月13日,人工智能领域再次迎来了里程碑式的突破。OpenAI,作为全球人工智能领域的领军者,于近日在其盛大的春季发布会上正式发布了全新的GPT-4o模型。这款模型以其卓越的性能、全面的功能和惊人的反应速度,再次证明了人工智能技术的无限潜力和广阔前景。

打开网易新闻 查看精彩图片

01

GPT-4o: 全新定义的智能伙伴

打开网易新闻 查看精彩图片

盲人用户使用 ChatGPT-4o“观察”整个世界

GPT-4o不仅仅是GPT-4的升级版,它是一次革命性的突破,代表了人工智能技术的全新高度。据OpenAI表示,GPT-4o是一个“原生多模态”模型,它的命名来源于“omni”,即包罗万象之意。其所具备的强大的多模态处理能力,能够同时处理语音、文本和视觉信息,为用户带来前所未有的交互体验。无论是解答数学问题、描述图像内容,还是进行语音交互,GPT-4o都能够轻松胜任,为用户提供精准、快速且全面的解答。

02

跨模态处理:突破界限 无所不能

GPT-4o的跨模态处理能力是其最大的亮点之一。传统的AI模型往往只能处理单一类型的数据,而GPT-4o则能够同时处理文本、图像和音频等多种类型的数据。这种跨模态处理能力使得GPT-4o能够更好地理解用户的意图和需求,提供更加准确、全面的回答和解决方案。

打开网易新闻 查看精彩图片

OpenAI研究主管Mark Chen现场演示

在演示中,GPT的声音听起来像一位美国女性,当它听到Chen过度呼气时,它似乎从中察觉到了他的紧张。然后说“Mark,你不是吸尘器”,告诉Chen要放松呼吸。它能够实时解答数学方程,并根据统计数据绘制图表。同时,它还能够根据用户的指令调整说话语气,甚至能够唱出部分回应,为用户带来更加自然、真实的交互体验。这种跨模态处理能力不仅让GPT-4o在人机交互方面有了质的飞跃,也为未来的智能应用提供了更多的可能性。

03

语言处理: 全球语言 沟通无界

打开网易新闻 查看精彩图片

GPT-4o在语言处理方面也有着出色的表现。在成本大幅度下降的前提下,做到了更快的API响应速度,最快达到了232毫秒响应音频输入,平均响应时间为320毫秒。这与人类在对话中的响应时间相似。它在英语文本和代码方面的性能与GPT-4 Turbo的性能一致,并且在非英语文本方面的性能有了显著提高。

打开网易新闻 查看精彩图片

多语言处理能力使得GPT-4o能够更好地满足全球用户的需求。无论是哪个国家、哪个地区的用户,都能够通过GPT-4o轻松地进行跨语言交流,实现真正的全球化沟通。

04

情感分析: 感知情绪 更懂人心

打开网易新闻 查看精彩图片

Openai研究主管Barrett Zoph的自拍照

GPT-4o不仅在语言处理上表现出色,在情感分析方面也有着不俗的能力。它能够通过音频感知用户的面部表情和情绪变化,从而更加准确地理解用户的意图和需求。在互动环节中,通过一张自拍照,ChatGPT 被要求根据 Barret 的一张自拍照的面部表情来推断情绪,成功识别出他愉快和兴奋的情绪状态。这种情感分析能力使得GPT-4o能够成为一个更加贴心、更加懂你的AI伙伴。

 OpenAI全新GPT-4o震撼发布
打开网易新闻 查看更多视频
OpenAI全新GPT-4o震撼发布

在对话中,GPT-4o能够感知用户的情绪变化,并据此调整自己的回答方式和语气。当用户感到高兴时,它能够以轻松愉快的语气与用户交流;当用户感到沮丧时,它能够以安慰和鼓励的方式给予用户支持。这种情感分析能力让GPT-4o在人机交互中更加人性化、更加贴近用户的真实需求。

05

面向未来: GPT-4o仅仅只是开胃菜

打开网易新闻 查看精彩图片

GPT-4o收费价格

GPT-4o的发布不仅展示了OpenAI在人工智能领域的强大实力,更为我们揭示了未来人机交互的无限可能。这次 GPT-4o 将免费提供给所有用户,付费用户则可以享受五倍的调用额度。OpenAI表示,该模型将在未来几周内分阶段集成至 OpenAI 的各个产品之中GPT-4o将免费提供。「我们的初心,就是把最出色的AI工具,交到每个人的手中。」