北大校友Lilian，Weng发布120亿估值交互模型|lilian|openai|weng|交互模型|北大校友|大模型

你敢信？AI现在不仅能跟你聊天，还能像你最好的朋友一样，在你犹豫卡壳的瞬间精准接住你的话——而且反应速度比人类的神经反射还快？就在刚刚，OpenAI前高管天团创办的Thinking Machines，甩出了一款让整个AI圈炸锅的新品：交互模型。这一次，AI不再是冷冰冰的回复机器，而是能跟你同频呼吸的灵魂队友。

想象一下：你正跟朋友聊得兴起，刚停顿两秒想找个词，对方立刻递上你要的那个字；你兴奋讲构思时，他会在恰当的时机发出赞叹。这种“心有灵犀”的协作感，是人类最珍视的体验。但过去两年，哪怕ChatGPT再博学，你都得把想法打包好点击发送，等它慢吞吞回复——就像跨世纪的电邮往来。

直到Lilian Weng（OpenAI前安全负责人、现在TML联合创始人）的出镜首秀，彻底打破了这个僵局。她在视频里要求AI：每听到动物名字就计数一次。神奇的是，她喝水、思考停顿的时候，AI完全没打断；讲完后，AI精准报出：鹿、绵羊、郊狼、卡皮巴拉各一次。更牛的是，AI能隐式追踪她的思考、让步、自我纠正，全程没有专门的对话管理组件！

目前大多数AI都有“数字自闭症”：你说话时它是聋子，得等VAD（语音检测外挂）说“人类说完了”才反应；它回复时你是瞎子，你中途喊停它根本听不见。TML的交互模型直接拆掉了这些脚手架。

他们用了“时间对齐微回合”架构：把对话切成200毫秒的微小片段——这可是人类反应的生理极限！AI不再等你说完才理解，而是每200毫秒就进行一次“感知-反馈”循环。就像你的神经反射：你还没意识到说错话，AI已经捕捉到发音偏差。

Lilian Weng说：“人与人的协作，对改善人机协作至关重要。”这句话点透了核心：技术从“指令响应”进化成了“感知共振”。

市面上所有实时语音AI都靠VAD：监测静音超过0.5秒就判定“说完了”，所以AI要么接话慢，要么在你思考时打断。但TML的模型是原生感知——它能通过你的语气、语速、呼吸声，甚至视频里的眼神，判断你是在思考、想让人接话还是自我纠正。这种“懂你”的能力，是长在模型骨子里的。

更天才的是“双模型协作”：前台交互模型像人类的直觉，负责听、看、说、感知情绪，保证200毫秒响应；后台思考模型像深度思考，负责查资料、跑复杂逻辑。你跟AI聊天时，前台陪你唠嗑，后台偷偷帮你找答案，等合适时机再把结果揉进对话里——完全不打断节奏！

很多人问：OpenAI的GPT Realtime API不也能实时吗？答案是：逻辑完全不同。TML的12B参数MoE模型，在交互质量基准测试FD-bench上全面领先GPT Realtime。

核心差距是“主动性”：GPT是被动的，你不叫它它不动；TML模型有“视觉主动性”——它能主动看到世界变化，不用你指令就开口。比如你做俯卧撑，GPT得等你问“我做了几个”才回答；TML模型会一边看一边喊：“1、2、3……加油，最后两个！”

Thinking Machines的横空出世曾让硅谷侧目：前OpenAI CTO Mira Murati离职后，没拼参数大小，反而选了“交互”这个切口。她的判断很准：智能固然重要，但协作才是AI进入人类生活的入场券。

Mira Murati押注的交互方向，会不会是AI的下一个爆发点？你觉得，她这次押对了吗？评论区聊聊你的看法——毕竟，能跟你同频呼吸的AI伙伴，离我们真的不远了！