打开网易新闻 查看精彩图片

5 月 13 日,赶在 Google 发布大模型产品动向前一天,OpenAI 发布了新模型 GPT-4o,“o” 意即 “万能(omni)”。从产品本身变化和发布节奏看,这家初心是 AI 实验室的非营利机构,越来越像一个互联网公司——特意挑选发布时间,配上精心准备的产品 Demo,用免费的产品吸引更多用户使用,再想办法把它们转化成付费客户。

GPT-4o 的发布,意味着 GPT-5 不会短期到来。尽管 OpenAI 两年前就开发出了 GPT-4。过去一年,同行追了上来。GPT-4o 文本能力提升也有限,显然达不到 CEO 山姆·阿尔特曼设想和公众期待的 GPT-5 水平。

新模型有点像科幻电影《她》(Her)里的语音伴侣。产品演示中的最大亮点是它可以实时处理音频,用户说一句话后不用再等几秒。和 GPT-4 版本的 ChatGPT 语音模式相比,GPT-4o 语音处理功能不借助文本转录,而是采用端到端架构:根据用户说话的 “音调”“情绪” 或 “背景噪音”,直接输出 “笑声、歌唱或表达情感”。

端到端的架构给 OpenAI 带来一些问题——需要用优质语音训练,这通常在其他大公司版权保护对象。OpenAI 也可以自己收集或者用文本转录,但耗费的时间会远超文本数据。模型最终输入语音,也会导致模型处理困难、防滥用难度也提升。所以这次 OpenAI 发布 GPT-4o 时,语音功能不免费,还要推迟几周上线。

根据 OpenAI 博客,GPT-4o 生成图片能力也有很大提升,已经可以精确生成图片中的文字。在此之前,受制于技术路径,生成图片中的文字一直是文生图方向的难题。OpenAI 不仅克服,还能把图片变成 3D 版。视觉理解评估上,GPT-4o 在多个权威评测数据集上大幅领先同行,相当于 GPT-3.5 到 GPT-4 的跨越,但 GPT-4o 仍与人类水平有不小差距。

“我很能共情世界上普遍的、对我们这类公司的焦虑和不适…” 阿尔特曼今年 1 月在达沃斯论坛上回应外界对人工智能过于发达、是否会掀起新秩序的担忧,“我们有自己的焦虑”。

很难说他指的是哪一种或哪几种,但是时而觉得产品进步太慢的 OpenAI、自己可能正身处一种产品焦虑。

焦虑来源很多,例如在 GPT-4 发布之后,备受期待、同等重量级的 GPT-5 迟迟没有消息;文生视频软件 Sora 一直没有向公众开放,真实的交互效果也开始受到质疑;今年 Google 开发者大会前放出要发布搜索引擎的消息(计划发布时间为 5 月 13 日),似乎也只是吸引注意的幌子。

去年 5 月,阿尔特曼一场闭门讨论中表示,OpenAI 不会在 ChatGPT 之外发布更多的产品 —— 这仿佛不妨碍他们今年 2 月发布 Sora 并引起关注。去年也有一些 ChatGPT、OpenAI 流量下跌的新闻,他们可能确实需要隔一段时间发布新产品吸引公众注意力。

或许为大模型铺好基础设施的 OpenAI,也逃不过被期待和竞争驱动,做出一些互联网公司般的努力。(实习生徐煜萌 贺乾明)