在人工智能迈向通用智能体时代的关键节点,人机交互的自然度与流畅性成为行业竞争的核心高地。云知声今日正式发布“山海·知音”大模型2.0版本,依托旗下“山海·Atlas”通用智算基座的强大底座,通过端到端大模型架构重构传统语音交互链路,在复杂环境感知、专业语义理解及实时全双工交互三大维度实现技术跃迁,旨在为千行百业提供兼具专业深度与情感温度的智能交互中枢。

基座重构:从模块级联到端到端大模型

此次升级的核心逻辑在于底层架构的范式转移。不同于传统ASR(语音识别)与TTS(语音合成)的级联模式,“山海·知音”2.0依托云知声独创的“山海·Atlas”智算一体基座,将多模态感知、语义理解与语音生成能力深度融合进统一的端到端大模型框架。这种架构不仅解决了传统 pipeline 模式下的错误累积问题,更为“山海·知医”等垂直领域专业智能体向通用场景的延伸提供了坚实的感知与交互中枢,实现了算力与算法效率的最大化。

感知升维:突破噪声与专业术语壁垒

语音识别(ASR)层面,模型展现出极强的环境鲁棒性与专业理解力。实测数据显示,在高噪与方言口音的复杂场景下,其性能较国内主流开源及闭源模型提升2.5%至3.6%,复杂背景音识别准确率业内首次突破90%。更为关键的是,模型实现了从“听字”到“理解事”的认知跨越——通过引入行业知识图谱与上下文推理机制,在医疗场景中对“依帕司他”等生僻药名的识别精度提升30%,在汽车场景中能基于逻辑推理补全“半幅方向盘”等隐含指令。同时,模型支持30余种中文方言及14种国际语言的精准转写,并融合视觉语义构建视听闭环,彻底打破了语言与环境的交互壁垒。

打开网易新闻 查看精彩图片

交互进化:90毫秒低延迟与全双工对话

针对传统语音合成延迟高、交互机械的痛点,“山海·知音”2.0在TTS与交互逻辑上进行了深度创新。技术团队研发了基于纯因果注意力机制的流匹配模块,并与神经声码器联合优化,构建出端到端纯流式推理架构,成功将首包延迟压缩至90毫秒以内,在保证播音级音质的同时实现了业界领先的实时响应。在交互模式上,模型支持随时打断、即时接话与连贯追问,能够在流式收声的同时同步完成理解、决策与生成,使人机对话从“一问一答”的机械模式进化为行云流水的自然交流。

打开网易新闻 查看精彩图片

随着“山海·知音”2.0的正式落地,云知声已完成“一基两翼”战略的关键闭环。云知声正以技术创新回应行业关切:真正的智能体不应止步于炫技,而应成为听得清、说得真、懂人心的有温度的智慧伙伴。