上方蓝字关注我们

打开网易新闻 查看精彩图片

OpenAI宣布推出GPT-4o,一个能跨语音、文本和视觉推理的多功能语言模型。GPT-4o将向所有ChatGPT用户开放,并推出桌面应用,支持MacOS和Windows。模型响应时间接近人类,能处理多种输入,提供更自然的人机交互体验。GPT-4o将显著提升用户体验,支持超过50种语言,具备实时翻译和多模态交互能力。

在OpenAI的春季更新会上,首席技术官Mira Murati宣布了一个全新的多功能大型语言模型GPT-4o,这标志着人工智能技术的又一次飞跃。GPT-4o模型将很快向所有免费ChatGPT用户开放,同时,适用于MacOS的ChatGPT桌面应用也将推出,未来还将发布Windows版本,为用户提供更多样化的访问方式。

GPT-4o:一个神经网络处理语音、文字和视频

打开网易新闻 查看精彩图片

Murati在会上解释称,GPT-4o能够跨语音、文本和视觉进行推理,包括实时分析用户通过ChatGPT智能手机应用捕获的视频。尽管这一功能目前还未对公众开放,但其潜力已经显而易见。她补充说:“这听起来像魔法一样神奇,我们希望去除一些神秘感,让你亲自体验一下。”这表明OpenAI致力于将AI技术带入日常生活,使其更加亲切和易于接触。

在演示中,演讲者要求手机上的ChatGPT(由GPT-4o提供支持)以越来越戏剧化的声音讲述故事,ChatGPT正确且迅速地做到了这一点。它还能在被打断时停止说话,先听取用户意见后再继续,展现了对人类交流习惯的敏感性和适应性。

OpenAI在其网站上发布了GPT-4o的演示视频和功能示例,并指出该模型对音频输入的响应时间最短可达232毫秒,平均为320毫秒,与人类对话中的反应时间相近。这一响应速度的实现,是AI技术向着更加自然和人性化交互迈进的重要一步。

与之前的模型相比,GPT-4o的不同之处在于其端到端的训练方式,它能够处理文本、视觉和音频输入,所有输入和输出都由同一个神经网络处理。这种整合模态的处理能力,使得GPT-4o在生成单一图像的多个视图并将其转化为3D对象方面展现出独特的能力。然而,OpenAI并未声明将开放GPT-4o的源代码,这可能会限制用户对模型的定制能力,也引发了一些批评声音。

GPT-4o的特性将为免费ChatGPT用户带来显著的升级,此前他们只能使用仅限文本的GPT-3.5模型。现在,他们将能够访问一个更智能的模型,包括网络浏览、数据分析、图表创建等功能,以及通过输入或口头询问存储用户信息和偏好的记忆功能。

在活动中的一个演示中,OpenAI展示了由GPT-4o支持的ChatGPT如何作为一个实时翻译应用,自动监听并翻译演讲者从意大利语到英语的讲话。此外,ChatGPT现在还支持超过50种语言的注册、登录和用户设置等,GPT-4o在理解和讨论用户分享的图像方面也展现出了卓越的能力。

尽管GPT-4o最终将向免费ChatGPT用户开放,但它将首先向付费订阅者推出。OpenAI表示,他们将从ChatGPT Plus和Team用户开始推出GPT-4o,企业用户的可用性也即将到来。免费用户的使用限制将从今天开始实施,而Plus用户的消息限制将比免费用户多5倍,Team和Enterprise用户将有更高的限制。

OpenAI的联合创始人兼首席执行官Sam Altman在活动期间发布消息称,在API中,GPT-4o将以GPT-4 Turbo的一半价格和两倍速度提供,同时速率限制提高5倍,即第三方开发人员在任何给定时间内可以进行的调用次数。这一举措将进一步推动AI技术的普及和应用。

打开网易新闻 查看精彩图片

OpenAI研究员William Fedus确认,用户在LMSys arena在线网站上发现的“gpt2-chatbot”实际上是GPT-4o的伪装。这表明OpenAI在GPT-4o的开发上已经投入了大量的工作和创新。

Altman在个人博客上写道,OpenAI构建AI的思维方式已经发生了变化。他表示,OpenAI最初的设想是创建AI并用它为世界带来各种好处。但现在看起来,OpenAI将创建AI,然后其他人将使用它来创造我们都受益的各种惊人事物。他强调,OpenAI是一家商业公司,将找到许多收费的服务,这将帮助他们为(希望)数十亿人提供免费、卓越的AI服务。

Altman认为,原始的ChatGPT展示了语言接口的可能性,而这个新模型则感觉完全不同。它快速、智能、有趣、自然和有帮助。与计算机交谈对他来说从未真正感觉自然,但现在它确实如此。随着个性化、访问用户信息、代表用户采取行动等能力的增加,他看到了一个令人兴奋的未来,我们将能够使用计算机做比以前更多的事情。

ChatGPT桌面客户端

最后,他向投入大量工作使这一切成为现实的团队表示了巨大的感谢。OpenAI在博客文章中还提到,新的ChatGPT桌面应用程序将首先在MacOS上推出,随后在今年晚些时候推出Windows版本。桌面应用程序的一个有趣功能是,它将允许ChatGPT查看用户屏幕的实时视频捕获(如果用户选择这样做)并分析用户的工作流程。

Murati在活动中指出,目前已有超过1亿人使用ChatGPT,用户在GPT商店中创建了超过100万个自定义GPT。

GPT-4o的应用

随着GPT-4o模型的推出,人工智能的应用场景变得更加多样化和深入。想象一下,一个视力障碍的人士,通过佩戴集成了GPT-4o的智能眼镜,能够在繁忙的街道上自如行走。这个系统不仅能够实时分析街景,识别路牌和交通信号,还能通过语音提示帮助用户避开障碍物,甚至指导他们正确地乘坐公共交通工具。这种技术的应用极大地提高了视障人士的生活质量和独立性。

在教育领域,GPT-4o同样展现出巨大潜力。例如,可汗学院的院长展示了如何利用GPT-4o的实时视频功能来辅导孩子完成数学作业。这种一对一的个性化辅导不仅能够提高学生的学习效率,还能够激发他们的学习兴趣。此外,GPT-4o还能够跨越学科界限,为学生提供科学实验指导、语言学习辅助,甚至是历史事件的可视化解释,使得学习变得更加直观和有趣。

打开网易新闻 查看精彩图片

GPT-4o的实时翻译功能在发布会中已经得到了展示。这项技术可以应用于国际会议、旅游指南、多语言客服等多个场景,为不同语言背景的人们提供即时沟通的桥梁。无论是在商务谈判中,还是在文化交流中,实时翻译都能够消除语言障碍,促进更广泛的沟通与理解。

在商务会议中,GPT-4o可以作为一个虚拟的会议助理,不仅能够听取与会者的发言,还能够根据讨论内容提出有价值的见解。它能够区分多人对话,记录会议要点,并在会后生成详细的会议报告,极大地提高了会议的效率和成效。

此外,GPT-4o还能够在法律咨询、创意写作、虚拟客服等领域发挥重要作用。它能够辅助法律专业人员进行案例研究,提供相关的法律条文解释;为作家和内容创作者提供写作灵感和风格模仿;作为虚拟客服处理客户咨询,提供产品信息,解决问题。

GPT-4o的实时语音和视频分析功能,还能为个性化健康顾问领域带来了革命性的变革。通过细致分析用户的医疗记录和实时健康监测数据,GPT-4o能够提供高度定制化的健康建议,如个性化的饮食和运动计划。它甚至能够监测慢性病患者的症状变化,通过实时预警系统,及时提醒用户就医,从而极大地提升了疾病管理和个人健康监护的效率。

在辅助驾驶和交通安全方面,GPT-4o的集成为驾驶者带来了更加智能化的导航体验。它能够实时更新路况,规划最优行驶路线,并在驾驶过程中通过语音辅助提供行车安全提示,减少驾驶者的认知负担,提高行车安全。

此外,GPT-4o在游戏和娱乐产业中也展现出巨大潜力。它能够为互动式游戏和娱乐体验提供自然语言交互,使玩家能够以更加自然和直观的方式与游戏角色或系统进行交流。这种沉浸式的体验不仅增强了游戏的趣味性,还为娱乐内容的创新提供了新的方向。

GPT-4o模型的推出,预示着人工智能将更加深入地融入我们的日常生活,为我们提供更加智能化、个性化的服务。随着技术的不断进步,GPT-4o将在更多领域展现出其独特的价值,为人类社会的发展做出更大的贡献。

已有超过2000名

读者加入交流群

我们还在等你

点这里关注我,记得标星哦~

CLICK TO SEE YOU LOOK THE BEST