AI告别"回合制"：前OpenAI高管新公司展示实时对话模型

赛博兰博

2026-05-12 06:53 ·北京

周三，一个由前OpenAI核心高管创立的AI公司，试图回答一个关键问题：如果AI能像真人一样边听边说，交互会变成什么样？

这家公司叫Thinking Machines，创始人包括前OpenAI首席技术官Mira Murati和前OpenAI研究员、联合创始人John Schulman。他们今天发布了一个研究预览版——不是面向公众的成品，而是给行业看的"技术demo"。

核心变化在于架构。现在的AI模型，不管是ChatGPT还是Claude，本质上都是"回合制"：你说完，它想，然后回答。这个等待时间从几毫秒到几分钟不等，复杂任务甚至要数小时。Thinking Machines想打破这个模式。

他们的方案叫"全双工"（full-duplex）架构。技术细节是：把输入输出切成200毫秒的微块，同时处理。模型可以一边听你说，一边生成回应，还能在你说话时插话——比如看到你代码里写了个bug，或者视频里有人走进画面。

具体实现上，他们抛弃了传统的独立编码器（比如Whisper那种专门处理音频的大模块）。音频直接以dMel格式输入，图像切成40x40的小块，全部走一个轻量嵌入层，在Transformer里从头联合训练。

这次预览的模型叫TML-Interaction，属于"交互模型"（interaction models）这个新品类——把交互能力直接做进模型架构，而不是靠外部软件"套壳"实现。官方称在第三方基准测试上有明显提升，延迟也降低了。

但别急着用。公司博客明确说：接下来几个月先开限量研究预览收集反馈，今年晚些时候才有更广泛发布。换句话说，这是给开发者和投资人看的信号，不是给普通用户的产品。

背后的判断很清晰：如果AI要接管需要自然交互的工作——客服、教学、协作编程——它得学会"实时共处"，而不是等指令。这不仅是速度问题，是关于AI如何理解"当下"这个概念的重新定义。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴