OpenAI GPT-4o引爆网络，它到底有什么逆天用途？|chatbot|gpt-4|openai|人工智能|应用程序|插件功能|翻译

上方蓝字关注我们

OpenAI宣布推出GPT-4o，一个能跨语音、文本和视觉推理的多功能语言模型。GPT-4o将向所有ChatGPT用户开放，并推出桌面应用，支持MacOS和Windows。模型响应时间接近人类，能处理多种输入，提供更自然的人机交互体验。GPT-4o将显著提升用户体验，支持超过50种语言，具备实时翻译和多模态交互能力。

在OpenAI的春季更新会上，首席技术官Mira Murati宣布了一个全新的多功能大型语言模型GPT-4o，这标志着人工智能技术的又一次飞跃。GPT-4o模型将很快向所有免费ChatGPT用户开放，同时，适用于MacOS的ChatGPT桌面应用也将推出，未来还将发布Windows版本，为用户提供更多样化的访问方式。

GPT-4o：一个神经网络处理语音、文字和视频

Murati在会上解释称，GPT-4o能够跨语音、文本和视觉进行推理，包括实时分析用户通过ChatGPT智能手机应用捕获的视频。尽管这一功能目前还未对公众开放，但其潜力已经显而易见。她补充说：“这听起来像魔法一样神奇，我们希望去除一些神秘感，让你亲自体验一下。”这表明OpenAI致力于将AI技术带入日常生活，使其更加亲切和易于接触。

在演示中，演讲者要求手机上的ChatGPT（由GPT-4o提供支持）以越来越戏剧化的声音讲述故事，ChatGPT正确且迅速地做到了这一点。它还能在被打断时停止说话，先听取用户意见后再继续，展现了对人类交流习惯的敏感性和适应性。

OpenAI在其网站上发布了GPT-4o的演示视频和功能示例，并指出该模型对音频输入的响应时间最短可达232毫秒，平均为320毫秒，与人类对话中的反应时间相近。这一响应速度的实现，是AI技术向着更加自然和人性化交互迈进的重要一步。

与之前的模型相比，GPT-4o的不同之处在于其端到端的训练方式，它能够处理文本、视觉和音频输入，所有输入和输出都由同一个神经网络处理。这种整合模态的处理能力，使得GPT-4o在生成单一图像的多个视图并将其转化为3D对象方面展现出独特的能力。然而，OpenAI并未声明将开放GPT-4o的源代码，这可能会限制用户对模型的定制能力，也引发了一些批评声音。

GPT-4o的特性将为免费ChatGPT用户带来显著的升级，此前他们只能使用仅限文本的GPT-3.5模型。现在，他们将能够访问一个更智能的模型，包括网络浏览、数据分析、图表创建等功能，以及通过输入或口头询问存储用户信息和偏好的记忆功能。

在活动中的一个演示中，OpenAI展示了由GPT-4o支持的ChatGPT如何作为一个实时翻译应用，自动监听并翻译演讲者从意大利语到英语的讲话。此外，ChatGPT现在还支持超过50种语言的注册、登录和用户设置等，GPT-4o在理解和讨论用户分享的图像方面也展现出了卓越的能力。

尽管GPT-4o最终将向免费ChatGPT用户开放，但它将首先向付费订阅者推出。OpenAI表示，他们将从ChatGPT Plus和Team用户开始推出GPT-4o，企业用户的可用性也即将到来。免费用户的使用限制将从今天开始实施，而Plus用户的消息限制将比免费用户多5倍，Team和Enterprise用户将有更高的限制。

OpenAI的联合创始人兼首席执行官Sam Altman在活动期间发布消息称，在API中，GPT-4o将以GPT-4 Turbo的一半价格和两倍速度提供，同时速率限制提高5倍，即第三方开发人员在任何给定时间内可以进行的调用次数。这一举措将进一步推动AI技术的普及和应用。

OpenAI研究员William Fedus确认，用户在LMSys arena在线网站上发现的“gpt2-chatbot”实际上是GPT-4o的伪装。这表明OpenAI在GPT-4o的开发上已经投入了大量的工作和创新。

Altman在个人博客上写道，OpenAI构建AI的思维方式已经发生了变化。他表示，OpenAI最初的设想是创建AI并用它为世界带来各种好处。但现在看起来，OpenAI将创建AI，然后其他人将使用它来创造我们都受益的各种惊人事物。他强调，OpenAI是一家商业公司，将找到许多收费的服务，这将帮助他们为（希望）数十亿人提供免费、卓越的AI服务。

Altman认为，原始的ChatGPT展示了语言接口的可能性，而这个新模型则感觉完全不同。它快速、智能、有趣、自然和有帮助。与计算机交谈对他来说从未真正感觉自然，但现在它确实如此。随着个性化、访问用户信息、代表用户采取行动等能力的增加，他看到了一个令人兴奋的未来，我们将能够使用计算机做比以前更多的事情。

ChatGPT桌面客户端

最后，他向投入大量工作使这一切成为现实的团队表示了巨大的感谢。OpenAI在博客文章中还提到，新的ChatGPT桌面应用程序将首先在MacOS上推出，随后在今年晚些时候推出Windows版本。桌面应用程序的一个有趣功能是，它将允许ChatGPT查看用户屏幕的实时视频捕获（如果用户选择这样做）并分析用户的工作流程。

Murati在活动中指出，目前已有超过1亿人使用ChatGPT，用户在GPT商店中创建了超过100万个自定义GPT。

GPT-4o的应用

随着GPT-4o模型的推出，人工智能的应用场景变得更加多样化和深入。想象一下，一个视力障碍的人士，通过佩戴集成了GPT-4o的智能眼镜，能够在繁忙的街道上自如行走。这个系统不仅能够实时分析街景，识别路牌和交通信号，还能通过语音提示帮助用户避开障碍物，甚至指导他们正确地乘坐公共交通工具。这种技术的应用极大地提高了视障人士的生活质量和独立性。

在教育领域，GPT-4o同样展现出巨大潜力。例如，可汗学院的院长展示了如何利用GPT-4o的实时视频功能来辅导孩子完成数学作业。这种一对一的个性化辅导不仅能够提高学生的学习效率，还能够激发他们的学习兴趣。此外，GPT-4o还能够跨越学科界限，为学生提供科学实验指导、语言学习辅助，甚至是历史事件的可视化解释，使得学习变得更加直观和有趣。

GPT-4o的实时翻译功能在发布会中已经得到了展示。这项技术可以应用于国际会议、旅游指南、多语言客服等多个场景，为不同语言背景的人们提供即时沟通的桥梁。无论是在商务谈判中，还是在文化交流中，实时翻译都能够消除语言障碍，促进更广泛的沟通与理解。

在商务会议中，GPT-4o可以作为一个虚拟的会议助理，不仅能够听取与会者的发言，还能够根据讨论内容提出有价值的见解。它能够区分多人对话，记录会议要点，并在会后生成详细的会议报告，极大地提高了会议的效率和成效。

此外，GPT-4o还能够在法律咨询、创意写作、虚拟客服等领域发挥重要作用。它能够辅助法律专业人员进行案例研究，提供相关的法律条文解释；为作家和内容创作者提供写作灵感和风格模仿；作为虚拟客服处理客户咨询，提供产品信息，解决问题。

GPT-4o的实时语音和视频分析功能，还能为个性化健康顾问领域带来了革命性的变革。通过细致分析用户的医疗记录和实时健康监测数据，GPT-4o能够提供高度定制化的健康建议，如个性化的饮食和运动计划。它甚至能够监测慢性病患者的症状变化，通过实时预警系统，及时提醒用户就医，从而极大地提升了疾病管理和个人健康监护的效率。

在辅助驾驶和交通安全方面，GPT-4o的集成为驾驶者带来了更加智能化的导航体验。它能够实时更新路况，规划最优行驶路线，并在驾驶过程中通过语音辅助提供行车安全提示，减少驾驶者的认知负担，提高行车安全。

此外，GPT-4o在游戏和娱乐产业中也展现出巨大潜力。它能够为互动式游戏和娱乐体验提供自然语言交互，使玩家能够以更加自然和直观的方式与游戏角色或系统进行交流。这种沉浸式的体验不仅增强了游戏的趣味性，还为娱乐内容的创新提供了新的方向。

GPT-4o模型的推出，预示着人工智能将更加深入地融入我们的日常生活，为我们提供更加智能化、个性化的服务。随着技术的不断进步，GPT-4o将在更多领域展现出其独特的价值，为人类社会的发展做出更大的贡献。

已有超过2000名

读者加入交流群

我们还在等你

点这里关注我，记得标星哦～

CLICK TO SEE YOU LOOK THE BEST