OpenAI推出“全能模型”GPT-4o，支持语音、视频、文字实时交互

DeepTech深科技

2024-05-14 20:40 ·北京

OpenAI 今天推出了 GPT-4o，这是一种新型的人工智能模型，你可以通过语音、视频和文本与它进行实时沟通。

OpenAI 表示，该模型将在未来几周内上线，并将通过 ChatGPT 应用程序和网页版免费开放给所有用户。ChatGPT 的付费订阅用户（每月 20 美元起）将能够提出更多请求。

OpenAI 的 CTO 米拉·穆拉蒂（Mira Murati）主持了 GPT-4o 的发布和现场演示。

值得一提的是，发布会的时间刚好选在谷歌召开 I/O 大会的前一天，谷歌预计将在大会上公布其最新的人工智能进展。

现有的 GPT-4 虽然提供了类似的功能，为用户提供了多种与 OpenAI 人工智能产品交互的方式，但这些功能被放在不同的模型中，导致响应时间更长，计算成本可能也更高。

GPT-4o 现在已经将这些功能合并到一个单一的模型中，穆拉蒂称之为“全能模型（omnimodel）”。她说，这意味着更快的响应和更平稳的任务转换。

该公司的演示表明，其结果是一个与 Siri 或 Alexa 非常相似的对话助手，但能够处理更复杂的提示。

穆拉蒂在谈到演示时说：“我们正在展望我们自己和机器之间互动的未来。我们认为，GPT-4o 正在将目前的合作范式转变为更具未来色彩的合作模式。未来，这种互动将变得更加自然。”

巴雷特·佐夫（Barret Zoph）和马克·陈（Mark Chen）都是 OpenAI 的研究人员，他们介绍了新模型的一些应用场景。

最令人印象深刻的是它应对实时对话的能力。你可以在模型的回应过程中打断它，它会停下来，听你讲完并调整回应，就像真人一样。

OpenAI 也展示了改变模型语调的能力。马克让模型在睡前读一个“关于机器人和爱情”的故事，然后他迅速补充称，要用更戏剧化的声音朗读。

随即，该模型变得越来越戏剧化，直到穆拉蒂要求它迅速转向令人信服的机器人声音（它很擅长这一点）。

在对话过程中，模型会出现一些短暂的停顿，这是它在推理下一步该说什么，但这并不令人意外。OpenAI 展示了一场节奏非常自然的人类与人工智能的对话。

（来源：OPENAI）

该模型还可以实时推理视觉问题。佐夫用手机拍摄了自己在一张纸上写代数方程 3x+1=4 的过程，并让 GPT-4o 提供解题思路。他指示它不要直接给出答案，而是像老师一样指导他。

该模型友好地说：“第一步是把所有带未知数 x 的项移到一边。那么，你认为我们应该如何处理这个加号？”

穆拉蒂表示，GPT-4o 将存储用户与它的交互记录，这意味着该模型“现在在你的所有对话中都具备一种连续性”。演示的其他亮点包括实时翻译，检索模型对话内容的能力，以及实时查询信息的能力。

正因为是现场演示，我们得以看到了一些小问题和小故障。在谈话中，GPT-4o 的声音可能会不合时宜地响起。在无人要求的情况下，它似乎对其中一位主持人的衣着发表了评论。

但当演示者告诉模型它做错了时，它处理得很好。它似乎能够在其他模型尚未有效合并的几种媒介上快速、有效地做出反应。

此前，OpenAI 的许多最强大的功能，如通过图像和视频进行推理，都只限于付费用户。

GPT-4o 标志着它们将首次向更广泛的公众开放，尽管目前还不清楚免费用户能与该模型进行多少次互动。

OpenAI 表示，付费用户的消息限制“仍然是免费用户限制的五倍”。

支持：Ren

运营/排版：何晨龙

01/ 温和条件也能生产人造钻石，科学家发现新型液态合金体系，成功制备多晶钻石薄膜

02/ 科学家打造文生视频大模型，含四个高效变种可更好处理时空维度，将Transformers与扩散模型完美结合

03/ 科学家用二氧化碳合成多碳醇，已完成8000小时稳定性评价，助力缓解过度依赖化石资源

04/ 科学家制备梯度石墨烯气凝胶，实现高浓度盐水持续淡化，并构建太阳能脱盐灌溉系统

05/ AlphaFold3来了！无需输入任何结构信息，生物分子预测精度高出50%

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴