Brockman发推：GPT-4o能实时看听想，3小时20万转发

爬虫饲养员

2026-03-26 06:02 ·北京

Greg Brockman在X上甩出一条推文，字数不多，信息量够炸。GPT-4o来了，文本、音频、视频，它全都要实时处理。换句话说，以前你得先录音再上传，现在它能边听边想边回话，延迟压到和人类对话差不多。

这条推文3小时攒了20万转发。评论区最热的不是技术讨论，是用户在问：「那我的ChatGPT Plus还值吗？」免费用户也能用GPT-4o，只是额度少点。Brockman没提定价，但把演示视频置顶了——一个AI同时听人说话、看桌面、解数学题，语速快得像个 caffeine 过量的助教。

实时多模态是这次的核心卖点。之前的GPT-4看不了视频，听语音还得转文字再走一道。现在端到端，音频直接进，音频直接出，中间不经过文字中转。Brockman的原话是：「reason across text, audio, and video in real time」，三个介质，一个模型通吃。

业内反应两极。一部分人觉得这是交互革命的起点，另一部分在算成本——实时推理的算力账单谁来埋单。OpenAI没公布API价格，但开发者已经在蹲守。有独立开发者在评论区留言：「只要延迟真能做到232毫秒，我的语音助手项目能活过来。」

演示里有个细节：AI能感知说话者的呼吸节奏，被打断时会自然停顿。Brockman没解释这是怎么练出来的，但网友已经把这个片段剪成meme到处传。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴