刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的|ai|模态|语音助手功能

机器之心原创

作者：杜伟、蛋酱

今年 5 月，OpenAI 首次展示了 GPT-4o 的语音功能，无论是对话的响应速度还是与真人声音的相似度，都颇为惊艳。特别是它允许用户随时打断，充分感知到用户的情绪并给予回应。

大家突然发现，原来 AI 语音通话还能这么玩？

但由于种种原因，用户们等了好久才等到 OpenAI 开放 ChatGPT 的高级语音功能，目前仅 Plus 和 Team 用户可体验，且这些用户每天也有使用时长限制。

不过现在，国内用户也有了同样丝滑的实时语音交互应用，重点是：免费开放，无需等待。

10 月 25 日，智谱清言宣布全量上线「情感语音通话」功能，任何用户都可以立即获得端到端情感语音体验。

对标 GPT-4o，智谱清言「情感语音通话」在响应和打断速度、情绪感知情感共鸣、语音可控表达、多语言多方言等方面实现了突破。简单来说，「情感语音通话」提供了一个真人一般的对话伙伴，而不仅仅是一个文字的朗读者。

以下视频来源于智谱清言

视频链接：https://mp.weixin.qq.com/s/Bi7cPZXCmsjSaJu6EglhJA

精通各种方言，比如这段北京烤鸭的介绍，那叫一个地道：

试听链接：https://qiband.com/s/Bi7cPZXCmsjSaJu6EglhJA

与此同时，智谱还重磅宣布，该功能背后的情感语音模型 GLM-4-Voice 同步正式开源。不久后，相关能力还将上线视频通话，为所有用户提供一个既能「看」又能「说」的 AI 语音助理。

开源地址：https://igodbuy.com/THUDM/GLM-4-Voice

自大模型浪潮兴起的两年来，AI 技术的发展日新月异，有时甚至超过我们的想象，让大家直呼科幻时代提前到来。

当然，这背后所代表的技术趋势也不断变化。比如在人类的想象中，「Any-to-Any」才是真正属于未来的人与 AI 交互方式。具体来说，AI 能做到接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出。

如今，智谱清言的「情感语音通话」又一次推动了国产 AI 对标国际先进水平。

情感语音模型 GLM-4-Voice

上线即开源

自从去年的 GPT-4 发布之后，领域内就一直在传 GPT-5 的各种消息。但我们后来都知道，OpenAI 并未通过简单粗暴地增加模型参数来拓展智能上限，而是选择了两条路线分别开拓：一条是 GPT-4o 所代表的端到端多模态大模型的探索，一条是 o1 所代表的关于推理 Scaling Law 的探索。

具体到 GPT-4o 上，OpenAI 跨文本、视觉和音频端到端地训练了一个新模型，所有输入和输出都由同一神经网络处理。行业内认为，这是一种可以将音频直接映射到音频作为一级模态的技术方法，涉及 Token 化和架构等方面的研究，总体来说是一个数据和系统优化问题。

在这方面，智谱也已经有了一定的技术积累。智谱清言情感语音通话功能背后的 GLM-4-Voice，同样是一个端到端的语音模型。

与传统的 ASR + LLM + TTS 的级联方案相比，GLM-4-Voice 以离散 Token 的方式表示音频，实现了音频的输入和输出的端到端建模，在一个模型里面同时完成语音的理解和生成，避免了传统的「语音转文字再转语音」级联方案过程中带来的信息损失和误差积累，且拥有理论上更高的建模上限。

具体来说，智谱基于语音识别（ASR）模型以有监督方式训练了音频 Tokenizer，能够在 12.5Hz（12.5 个音频 token）单码表的超低码率下准确保留语义信息，并包含语速，情感等副语言信息。语音合成方面，智谱采用 Flow Matching 模型流式从音频 Token 合成音频，最低只需要 10 个 Token 合成语音，最大限度降低对话延迟。

预训练方面，为了攻克模型在语音模态下的智商和合成表现力两个难关，智谱将 Speech2Speech 任务解耦合为 Speech2Text（根据用户音频做出文本回复）和 Text2Speech（根据文本回复和用户语音合成回复语音）两个任务，并设计两种预训练目标，分别基于文本预训练数据和无监督音频数据合成数据以适配这两种任务形式：

Speech2Text：从文本数据中，随机选取文本句子转换为音频 Token
Text2Speech：从音频数据中，随机选取音频句子加入文本 Transcription

GLM-4-Voice 预训练数据构造。

与传统的 TTS 技术相比 (Text-to-Speech)，GLM-4-Voice 能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断。

能够在情感的把握上做到如此精准，是因为 GLM-4-Voice 在 GLM-4-9B 的基座模型基础之上，经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练，拥有很强的音频理解和建模能力。为了支持高质量的语音对话，智谱设计了一套流式思考架构：输入用户语音，GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容，其中语音模态以文本作为参照保证回复内容的高质量，并根据用户的语音指令变化做出相应的声音变化，在保证智商的情况下仍然具有端到端建模 Speech2Speech 的能力，同时保证低延迟性（最低只需要输出 20 个 Token 便可以合成语音）。

GLM-4-Voice 模型架构图。

伴随着 GLM-4-Voice 的推出，智谱在通往 AGI 的道路上又迈出了最新一步。