你还在吐槽Siri是智障?OpenAI刚刚干掉了所有语音助手的最后一块遮羞布——这次,AI不仅能听人话,还真的有脑子了!
今天凌晨,OpenAI扔出的重磅炸弹,直接把语音交互的天花板掀翻:GPT-Realtime-2来了!
这不是普通的音频模型升级,而是全球首个注入GPT-5级别推理能力的语音AI。
更狠的是,它还带了两个神队友——GPT-Realtime-Translate和GPT-Realtime-Whisper,直接把“实时”两个字玩到了极致。
以前你跟Siri聊复杂问题,它要么答非所问,要么循环播放“我不太明白你的意思”。
但GPT-Realtime-2不一样,它是真的会“思考”。
OpenAI给它加了可调节的推理强度——从Minimal到xhigh五档。
最高档的表现,简直恐怖:逻辑谜题、战略决策、空间感知,样样精通。
比如有个创业者跟它聊在火车站旁开咖啡馆的想法:900平方英尺、贵租金、周二到周四高峰、慢冲咖啡。
换以前的AI只会说“加油”,但GPT-Realtime-2会停顿几秒,然后给你一套“死亡预警”:“一年后倒闭大概率是租金和客流周期不匹配,建议先搞个站台咖啡推车试试最小可行产品。”
这种深度战略分析,以前得打字聊半天,现在你开车时随口一说,它几秒钟就给你答案。
最让我头皮发麻的是它的情绪感知。
它不再是冷冰冰的播音腔:你沮丧时,它会用轻柔的语调安抚;任务完成时,声音会变得欢快。
更绝的是“前导语”功能——你问个超难的问题,它不会沉默五秒突然蹦答案,而是先自然地说:“让我帮你查一下哈,请稍等片刻……”
这种细节,直接把人机交互的隔阂磨平了,感觉对面是个活生生的人。
除了GPT-Realtime-2这个大心脏,OpenAI还带了两个王炸:
GPT-Realtime-Translate:支持70+输入语言、13种输出语言。
以往同传有滞后感,但它能跟紧演讲者语速,连开玩笑的语气都能复刻。
Vimeo已经用它做全球同步教学视频了——以后跨国会议,翻译不仅准,还能get到对方的笑点,这体验谁不爱?
GPT-Realtime-Whisper:流式转写的天花板。
实时会议记录、直播字幕、医疗诊断……这些高频场景,直接被降维打击。
OpenAI反复提的“Agentic(代理性)”,这次终于落地了。
语音交互不再是一问一答,而是“说句话就能办事”。
比如在Zillow,你说“帮我找套买得起的房,离闹市区远点,周六约看房”,AI会直接帮你查数据库、订日程;
在Priceline,航班延误时,它会主动说“别急,我帮你找了新登机口,规划了路线,还把酒店入住时间往后挪了”。
GPT-Realtime-2:每百万输入Token32美元,输出64美元;
实时翻译:每分钟仅0.034美元;
实时转写:每分钟仅0.017美元。
这价格,简直是把GPT-5级的语音能力变成了自来水——以后每台手机、每个App、每辆汽车都能接入,普通人也用得起。
电影《Her》里的萨曼莎,能同时和几千人聊天、恋爱,还能深度共情。
现在GPT-Realtime-2来了,那个能听懂你的叹息、算清你的报表、帮你搞定琐事的AI,不再是科幻。
键盘已经老了,语音交互的时代真的来了。
以后你开车、做饭、跑步时,只要开口,AI就能帮你搞定一切。
如果这个AI能帮你做一件事,你最想让它干什么?是帮你规划旅行,还是处理工作邮件?
评论区聊聊你的想法!
热门跟贴