周三,一个由前OpenAI核心高管创立的AI公司,试图回答一个关键问题:如果AI能像真人一样边听边说,交互会变成什么样?

这家公司叫Thinking Machines,创始人包括前OpenAI首席技术官Mira Murati和前OpenAI研究员、联合创始人John Schulman。他们今天发布了一个研究预览版——不是面向公众的成品,而是给行业看的"技术demo"。

打开网易新闻 查看精彩图片

核心变化在于架构。现在的AI模型,不管是ChatGPT还是Claude,本质上都是"回合制":你说完,它想,然后回答。这个等待时间从几毫秒到几分钟不等,复杂任务甚至要数小时。Thinking Machines想打破这个模式。

他们的方案叫"全双工"(full-duplex)架构。技术细节是:把输入输出切成200毫秒的微块,同时处理。模型可以一边听你说,一边生成回应,还能在你说话时插话——比如看到你代码里写了个bug,或者视频里有人走进画面。

具体实现上,他们抛弃了传统的独立编码器(比如Whisper那种专门处理音频的大模块)。音频直接以dMel格式输入,图像切成40x40的小块,全部走一个轻量嵌入层,在Transformer里从头联合训练。

这次预览的模型叫TML-Interaction,属于"交互模型"(interaction models)这个新品类——把交互能力直接做进模型架构,而不是靠外部软件"套壳"实现。官方称在第三方基准测试上有明显提升,延迟也降低了。

但别急着用。公司博客明确说:接下来几个月先开限量研究预览收集反馈,今年晚些时候才有更广泛发布。换句话说,这是给开发者和投资人看的信号,不是给普通用户的产品。

背后的判断很清晰:如果AI要接管需要自然交互的工作——客服、教学、协作编程——它得学会"实时共处",而不是等指令。这不仅是速度问题,是关于AI如何理解"当下"这个概念的重新定义。