Greg Brockman在X上甩出一条推文,字数不多,信息量够炸。GPT-4o来了,文本、音频、视频,它全都要实时处理。换句话说,以前你得先录音再上传,现在它能边听边想边回话,延迟压到和人类对话差不多。
这条推文3小时攒了20万转发。评论区最热的不是技术讨论,是用户在问:「那我的ChatGPT Plus还值吗?」免费用户也能用GPT-4o,只是额度少点。Brockman没提定价,但把演示视频置顶了——一个AI同时听人说话、看桌面、解数学题,语速快得像个 caffeine 过量的助教。
实时多模态是这次的核心卖点。之前的GPT-4看不了视频,听语音还得转文字再走一道。现在端到端,音频直接进,音频直接出,中间不经过文字中转。Brockman的原话是:「reason across text, audio, and video in real time」,三个介质,一个模型通吃。
业内反应两极。一部分人觉得这是交互革命的起点,另一部分在算成本——实时推理的算力账单谁来埋单。OpenAI没公布API价格,但开发者已经在蹲守。有独立开发者在评论区留言:「只要延迟真能做到232毫秒,我的语音助手项目能活过来。」
演示里有个细节:AI能感知说话者的呼吸节奏,被打断时会自然停顿。Brockman没解释这是怎么练出来的,但网友已经把这个片段剪成meme到处传。
热门跟贴