打开网易新闻 查看精彩图片

人工智能创业公司aiOla表示,他们在开发能够像人类一样理解人类语音的机器方面取得了突破性进展。

该公司今天宣布推出了一款全新的"语音智能网关",通过动态路由技术将每个音频请求分配给最适合处理的模型,从而提高语音识别的可靠性。

AIOla首次引起关注是在去年,当时该公司推出了Drax,这是一种新型语音AI模型,采用并行流匹配训练技术来增强语音识别能力。该模型通过同时处理整个口语序列来重构带噪声的人类语音,而不是像传统的顺序方法那样一次预测一个Token。这种方法让模型接触到真实的、声学上合理的错误,从而提高了其理解带口音语音和背景噪声的能力。

现在,该公司通过其语音智能网关进一步发展,这款产品被称为"QUASAR",即"质量加权无监督ASR评估和排序"的缩写。据aiOla介绍,QUASAR能够识别说话者的特征(如口音)以及音频条件和领域语境,然后将音频信号发送到最合适的自动语音识别系统,以实现更高精度的转录。

这是一项强大的功能,因为语音AI模型市场已经变得高度分化,拥有数百个竞争的ASR系统,它们都采用了不同的训练方式。OpenAI的Whisper、亚马逊的Transcribe、阿里巴巴的Qwen2和Deepgram不断通过连续发布新版本来超越彼此,努力根据口音、噪声和语境提高准确性。然而,大多数企业并没有充分利用这些丰富多样的选择,而是简单地采用在基准测试中表现最佳的ASR作为一刀切的解决方案,而不是针对每种场景使用最佳的ASR。

联合创始人兼总裁阿米尔·哈拉马提表示,大多数企业只是简单地接受他们所选择的ASR引擎的盲点。但他认为这是一个糟糕的想法。例如,虽然他们选择的ASR可能在解释美国口音说话者方面表现出色,但在试图理解英式英语说话者时可能就会力不从心。或者,一些ASR在完美条件下工作得很好,但一旦加入背景噪声(如繁忙的机场或质量较差的连接),就无法再理解人们在说什么。

这种不可靠性在许多情况下是不可接受的。例如,客服代理需要理解客户的问题,这样才不会错误地让客户兜圈子。

"QUASAR将语音识别视为一个动态问题,最佳选择可以根据实际条件(而非平均值)在不同交互间发生变化,"哈拉马提说道。"这对行业来说是一个重大飞跃,可能会对ASR的使用方式造成巨大颠覆。"

该创业公司表示,他们已经在涵盖清晰朗读语音、各种口音、专业演讲、机构音频和金融领域重度内容的多样化基准测试中进行了广泛的内部评估。在这些测试中,QUASAR能够在88.8%的通话中选择表现最佳的ASR,从而实现智能体与人类之间更准确的自动对话。

哈拉马提表示,QUASAR是一个重要的发展,因为语音正快速成为人类与AI模型交互的默认方式。组织根本无法容忍有缺陷的语音识别系统,但没有单一的、全能的ASR能够在每种场景下完美理解语音。

"ASR必须作为活跃的基础设施发挥作用,QUASAR通过在规模化运营语音识别、改善不同人群和环境间的一致性来实现这一愿景,"他说道。"结果是一个能够改变整个语音生态系统的平台,从构建字幕工具的个人开发者到每年处理数十亿分钟音频的全球联络中心。"

Q&A

Q1:QUASAR语音智能网关是什么?它有什么特殊功能?

A:QUASAR是aiOla公司开发的"语音智能网关",全称为"质量加权无监督ASR评估和排序"。它能够识别说话者的特征(如口音)以及音频条件和领域语境,然后将音频信号动态路由到最合适的自动语音识别系统进行转录,从而大幅提高语音识别的准确性。

Q2:为什么需要动态路由技术来解决语音识别问题?

A:目前语音AI模型市场高度分化,拥有数百个不同的ASR系统,各有优劣。大多数企业只是选择一个在基准测试中表现最佳的ASR作为通用解决方案,但这种"一刀切"的方法无法应对不同口音、噪声环境和语境的挑战。动态路由技术可以根据实际条件选择最适合的ASR,提高整体识别准确性。

Q3:QUASAR技术的实际效果如何?在什么场景下最有用?

A:根据aiOla的内部评估,QUASAR在88.8%的通话中能够选择表现最佳的ASR,显著提高了智能体与人类之间的自动对话准确性。该技术特别适用于客服中心、字幕制作工具等需要处理大量多样化语音内容的场景,尤其是在面对不同口音、背景噪声或特定领域术语时表现出色。