放个演示

 豆包语音 2.0:数学公式也能读
打开网易新闻 查看更多视频
豆包语音 2.0:数学公式也能读

公式能读对,非常牛逼

这是字节新出的「豆包语音 2.0

今天发布,这里访问:

https://console.volcengine.com/speech/new/

打开网易新闻 查看精彩图片

我参与了这模型的内测,今天模型发布,来讲讲这玩意儿的不同之处:

  • 对话式合成
  • 复杂公式朗读
  • 声音复刻升级

对话式合成

先比较下这两段

这个是 豆包语音2.0,可以设置情景

[用哽咽但努力忍住、带着笑意的语气]谢谢你们……真的……我以为……我以为没人记得我生日了……我今天一整天都在想,可能大家都忙吧,忘了也正常……我自己都快忘了……结果你们……你们居然……还准备了这么多……蛋糕也买了,礼物也有……你们这群坏蛋……我刚才还在那儿自怨自艾呢……觉得自己特别可怜……现在搞得我像个傻子一样……眼泪都止不住了……真的……谢谢你们……有你们真好……

作为对比,这是 GPT-4o 的 tts,默认音色:

是不是感情丰富了?这就是「对话式合成」

给到上下文、指令和背景设定,AI 便会以更合适的口吻播出来

这里有三种方式:括号指令、语音指令和增加上文

方式1:括号指令

类似 prompt,你可以在句子前加指令,比如[生气的说],AI 并不会读括号里的内容,而是会使用对应的口吻

打开网易新闻 查看精彩图片

出来的效果是这样:

(我用了小姑娘的音色,奶凶奶凶)

再来一个

[兴奋溢于言表]卧槽!过了过了!我他妈真的过了!刚看到offer邮件,我还以为系统出bug了,刷了好几遍确认不是做梦!你知道吗,这公司我面了三轮,每轮都觉得自己要挂,尤其最后那轮技术面,我有好几个问题都没答上来……结果他们还是要我了!而且薪资比我预期的还高五千!我现在坐在星巴克,手机都快被我刷坏了,就一直盯着那封邮件看……兄弟,我终于他妈要翻身了!

这中间的笑声穿插,有些吞掉一半的字,绝了!要是不说,恐怕真没人能察觉

通过这种方式,你可以控制每句话的场景

方式2:语音指令

类似 system prompt,你也可以通过对整段内容进行控制,比如情绪、方言、语速、语调等

打开网易新闻 查看精彩图片

举几个例子

吵架

指令: <你得跟我互怼!就是跟我用吵架的语气对话>

合成文本: 那你另请高明啊,你找我干嘛!我告诉你,你也不是什么好东西!

暧昧/悄悄话

指令: <用asmr的语气来试试撩撩我>

合成文本: 你知道吗,我真的很喜欢你的声音。你说话的时候,声音特别温柔,特别好听,每次听到你的声音,我都觉得心里暖暖的,特别舒服。

方式3:增加上文

当然了,你也可以直接添加上文,让音色更连贯

打开网易新闻 查看精彩图片

然后,你就有了这个(没克隆音色)

做个比较:有上下文 vs 无上下文

无引用是这样:

北京…因为我来,这是第二次,上一次是在一…八年还是什么时候来过一次但是时间很短也没有时间去,真正的去游历,所以北京对我来说…只是…还存在一种想象之中啊,嗯没有太多的,直观的体验。

有引用是这样,引用上文: <你怎么评价北京这个城市?>

合成文本: 北京…因为我来,这是第二次,上一次是在一…八年还是什么时候来过一次但是时间很短也没有时间去,真正的去游历,所以北京对我来说…只是…还存在一种想象之中啊,嗯没有太多的,直观的体验。

在这个 case 中,AI 理解了问询的语境,呈现出思考和停顿的感觉

这里再多点例子

引用上文:

<是… 是你吗?怎么看着… 好像没怎么变啊?>

合成文本: 你头发长了… 以前总说留不长,十年了… 你还好吗?

这三种方式,可以单独用,也可以组合用

甚至再组合点别点工具

来完成个青头潜鸭的绘本

 豆包语音 2.0:数学公式也能读
打开网易新闻 查看更多视频
豆包语音 2.0:数学公式也能读

说到这,突然想起一个事,算作冷知识

ChatGPT 之所以会火,很大程度上是【AI 理解了上下文】

其实吧,早在 2020 年,GPT-3 就有了

当时叫「达芬奇-003」,只有少量开发者在用

到了 2022 年 ChatGPT 发布,大火出圈

这两者技术上差别不大,核心区别是什么?

3.5 给了 AI 以人格,给了他上下文,并进行了特别的后训练

于是, AI 不再以「句子填空」为任务,转而开始回答问题了

从接口的角度,GPT-3 的的时候,逻辑是这样

人给到半句话,AI 接着向后补全:

输入: 天空为什么是蓝色的?因为 输出(其实是补全): 瑞利散射导致短波长的蓝光更容易被散射...

而 ChatGPT 呢?是这样:

System(预设): 你是一个 helpful assistant User(用户的输入): 天空为什么是蓝色的 Assistant(AI 的输出): 这是个好问题!天空看起来是蓝色的...

多了什么?

多了 role(角色)的概念

System、User、Assistant 这些 role 告诉 AI:

  • 你是谁(助手、老师、朋友)
  • 你该怎么说话(友好、专业、幽默)
  • 你在什么场景下(课堂、聊天、工作)

正是这些东西 让 AI 从"补全工具"变成了"对话伙伴"

豆包语音 2.0 做的事情,本质上是一样的 给 TTS 加上了"人格"

复杂公式朗读

回到最开始的那个 Case,令人咋舌的公式朗读

 豆包语音 2.0:数学公式也能读
打开网易新闻 查看更多视频
豆包语音 2.0:数学公式也能读

再教学内容里,会涉及大量复杂符号

比如这样的:∑、∂、∫

讲道理...这个 ∫ 咋读啊

(好像都是直接说:从xx到xx的积分)

还有数学语义理解

比如 x² 要读「x 的平方」,不能读「x2」

这些东西,市面上的模型,普遍都得寄

豆包语音 2.0 则做了专项优化

小学到高中全学科的复杂公式

准确率能到 90%

 豆包语音 2.0:数学公式也能读
打开网易新闻 查看更多视频
豆包语音 2.0:数学公式也能读

 豆包语音 2.0:数学公式也能读
打开网易新闻 查看更多视频
豆包语音 2.0:数学公式也能读

这俩都是豆包读的,说实话,挺狠的

不过这个功能目前只能通过 api 来调用,网页上还得再等等

5 秒复刻音色

豆包语音 2.0 也支持你来自定义音色

https://console.volcengine.com/speech/new/experience/clone

比如让豆包学我说话,有两种做法:

1. 上传一段我的语音

2. 直接录制,对着「贝加尔湖」的文案读一遍

打开网易新闻 查看精彩图片

支持中、英、日、西、葡等多语种

回望

这个 2.0 的模型,今天就能体验了

入口:https://console.volcengine.com/speech/new/

打开网易新闻 查看精彩图片

回望一年前,那时候还叫 Seed-TTS 刚发论文

我也在第一时间做了报道

那个时候,豆包语音 1.0 搞定了「说得像」

  • 超自然(堪比真人)
  • 多情绪(喜怒哀乐)
  • 多场景(26 个精品音色)

而今天上线的 豆包语音 2.0,则搞定了「说得对」,变得可以理解场景

1.0到2.0,从说得像,到说得对。一晃一年半了,颇多感慨

最后说两句

这个语音模型,是字节在武汉的发布会放出来的

除了这个语音模型外,字节这次还更新了别的,比如:豆包 1.6 系列、图像生成 Seedream 4.0、视频生成 Seedance 1.0、编程模型等

大致如下,我画了个一图流

打开网易新闻 查看精彩图片