01 缘由

昨天我发了一篇Agent的文章,是之前参加北京AI活动的内容整理。然后就有读者说,如果有音频就更完美了。

其实当天我是想到了,也把设备都带过去了,无奈的是,现场的设备不兼容,要考虑现场音响,就没办法录播客了。

我其实很希望大家听原声的分享,毕竟我整理的文字也是从2万多字里删减后的。一些思考细节没有呈现。

正好又有读者希望有音频,也正好扣子空间上线了AI播客,马上动手来试一试。试了差不多一个小时,来说说惊喜和不足吧。

02 惊喜

语音的AI味儿,几乎没有了。

大家可以听一听,语调、语气、节奏、互动,都非常好。

操作也很简单,直接自然语言输入,就可以了。提示词可以是“根据XX内容,生成XX分钟的XX播客,然后输出一个音频文件”

思考过程也可以展现出来。由于线下的活动是5个嘉宾一起聊的,所以我又给定了新的指示词,希望不同的人、有不同的声音。

好家伙,AI真的开始干活了。在脚本里注释了不同的语气:沉稳、亲切、自信、诚恳、好奇、理性、思索。

有不同语气,并不难,现在AI语音都有各种版本。重点是,能根据内容识别合适的语气。比如“稍微保守点”,就识别为理性;“第一个问题”就识别为好奇等等。

整个生成时间差不多10分钟左右。还有完整的字幕可以对照。

惊喜完了。说说实用性等不足吧。

03 不足

a、首先,尽管给出了不同的语气,我也严格要求了不同角色用不同声音,但效果来看,基本没实现。

还是男、女两个声音角色,没有不同。

也许是现在模型默认就是两位嘉宾对谈,而不是多嘉宾对谈。

可能考虑是,既然都用AI了,那应该不复杂。复杂的话,直接就真人啊。

b、其次,自己加戏太多。虽然我给了内容、也指示模型严格按照推文、读出来,结果,大模型还是根据推文内容,进行了自己的理解、再加工。

整理的内容倒没错,但是,如果给出了严格指令的话,还是希望能执行。毕竟,整理后的内容虽然没错、但有些表达方式,还是改变了。

尤其对我这个项目来说,当然希望是按照嘉宾确认后的内容来表达。

c、时长。这个应该问题不大,目前应该还是算力局限。

整体而言,对我还是有帮助的。尤其现在不少人不愿意读长文,那就可以让AI自动生成一个对话,毕竟听对话,比单纯听念文本好多了。

但是,如果是AI生成的播客,应该是要打标签、告知用户的。这种情况下,用户是否还愿意听呢?

就目前播客用户而言,可能一大半不愿意了。

所以,这个工具对真人播客,似乎帮助又有限了。当然,还是非常不错的探索。尤其语音效果,还是很惊叹的。

最后,借用我在Agent那篇文章里的一个观点:

AI对真人关联高的创造性工作替代,需要有边界,全替代未必好;而那些机械、重复、没有创造价值的工作,可以多替代些。

---全文完,欢迎交流

理工/金融 复合背景

畅销书《英伟达之道》译者

百亿私募/头部自媒体 双重经历