AIGC的风终究是吹到了音乐圈——今年3月,“音乐届的ChatGPT” Suno V3粉墨登场,用户只需要在Suno上输入一句话的提示词,即可在数秒内生成两首两分钟的完整歌曲,从作词、作曲、演奏到人声演唱一气呵成,大大降低了普通人创作音乐的门槛。

已经习惯了各类“AI歌手翻唱”的听众和用户迅速拥抱了Suno,从《宫保鸡丁咏叹调》到《让我们荡起双桨》重金属,从英语、日语、俄语到普通话甚至是粤语,网友们自发上传的作品包罗万象,网易云音乐、QQ音乐等平台也迅速上线了SunoAI音乐专区,甚至还推出了定期更新的官方推荐歌单。

本期《硅谷101》邀请到了来自音乐和AI音乐生成领域的两位嘉宾,知名音乐博主“叨叨冯” 冯建鹏,美国哈特福德大学哈特音乐学院打击乐讲师百老汇全职演奏家Roger Chen, Meta Music Tech Lead,分享他们对以Suno为代表的文生音乐模型的看法,以及AI如何影响音乐产业的未来。

本期亮点:

⭕️为什么大家感觉是Suno是最火的呢?因为他敢最先把文生音乐模型公之于众

⭕️【测评一】“找不到工作的悲伤摇滚乐”,结果并不悲伤

⭕️能听但没有态度,AI只能写出不愤怒的摇滚乐

⭕️AI写的歌可以达到业界平均水平,但无法出挑成为头部作品

⭕️速度是音乐创作最重要的指标之一,为什么AI写不出80 BPM的音乐?

⭕️AI写歌与人类作曲不是一个逻辑,只能从左到右按顺序写,没有全局观

⭕️训练素材足够全面和丰富,AI可能写出Taylor Swift水平的歌曲?

⭕️同样的音乐,水平不同的演唱者演奏出来也不一样

⭕️【测评二】英雄主题的交响乐,听感能得7分,作为乙方它不及格

⭕️Suno不能按提示词生成指定的乐器,它只追求听上去大概相似

⭕️AI生成音乐是无法抗拒的洪流,但暂时做不到像音乐家一样写歌

⭕️【测评三】挑战规则严谨的赋格,Suno会表现得更好吗?

⭕️赋格研究在AI音乐有20年历史,不过在巴赫的原曲面前还很稚嫩

⭕️音乐技术与心理学:Mp3技术是如何被发明出来的?

⭕️音乐的本质是“有组织的声音”,这是文生音乐大模型的底层逻辑

⭕️最怕无聊?艺术需要跳出人类总结

⭕️创作者的脑洞大开:在音乐里加入随机数机制

01 让AI写一首“失业的悲伤摇滚”,结果并不悲伤

《硅谷101》:除了 Suno 以外,最近还有其他的几款生成音乐的软件,为什么感觉是 Suno 是最火的呢?

Roger:因为 Suno 是最胆大的,敢最先发布他们的 AI 生成音乐的模型。其他大公司,比如说 Facebook、 Google, 其实技术是领先的,但有很多的考虑,除了把这个技术发布出去,还要考虑它可能会对社会造成的影响。

尤其音乐,不像文字或者图像,它的版权问题其实是一个非常敏感的话题。如果你有海量的数据,假设你把世界上所有的歌都用来训练一个模型,那它肯定是能够做出一个很好的效果。但是它就会可能面临很多的法律问题,甚至说你把这整个音乐产业的格局给改变了,蛋糕就这么大,最后怎么去分?跟唱片公司、出版商去分钱?这些问题如果没有想清楚的话,后果可能不堪设想。

《硅谷101》:听起来很危险。其实不是技术问题,而是版权问题。

那让我们先听一听Suno到底实力如何吧。请冯老师给大家做一个现场测试,挑战一些专业、有难度的音乐生成。我们也可以帮您出一些题,比如写一首悲伤的摇滚乐,主题是“失业”或者“面试失败”。

叨叨冯:好的,那我们就让Suno自己写歌词,我们在音乐的属性上做一些限定:sad story of not finding a job, Classic Rock, 80 BPM, Guitar, Base, Drum, Keyboard.

打开网易新闻 查看精彩图片

《硅谷101》: 它自己取的这个名字还挺有艺术感。

叨叨冯:我觉得从它生成词来说,跟我的主题是符合的。但是从音乐的角度来说,我们指定的是“sad story”, 我没有听出太多的态度。音乐本身是 average level,可以符合我们的要求,至少说有摇滚的意思。

我之前测试了很多中文歌曲,相比较之下,英文歌曲在AI生成时似乎更加成熟一些。AI对英文歌词的理解以及转换成音乐的能力似乎更进一步。但在音乐本身的结构上,比如摇滚乐,它通常包含两个verse(主歌)和随后的chorus(副歌)。在AI生成的音乐中,从主歌过渡到副歌时,感觉缺少了一种递进感,一种推动力。也就是说,我们能听到主歌直接切换到了副歌,缺少了那种在器乐上逐渐构建起来、推向高潮的“build up”(积累感),就像是在达到高潮前需要有一个积累、然后爆发的过程,而AI生成的音乐缺少了这最后的推动。

然而,AI在两个主歌之间的区分上做得还不错,生成了一个较好的间奏。在音乐创作中,如果由人类来作曲,通常主歌之间的情绪变化不会太大,但主歌过渡到副歌时,情绪变化会更明显。

AI创作音乐时,相比真人作曲,最大的问题在于它缺乏一种“态度”。换句话说,它缺少一个创作的动机。如果我是一个真人作曲家,写歌背后一定有一些具体的原因,比如找不到工作的沮丧,或者对某些事情的愤怒。这些情绪会让音乐听起来更具有相应的情感色彩。

目前AI生成的音乐,虽然能满足基本的文字描述需求,但在作曲和编曲中体现人类情感方面,我的测试结果显示AI暂时还做不到。音乐之所以成为经典,是因为它承载的人文精神和态度引起了人们的共鸣。尽管有成千上万首摇滚乐,但只有少数几首能够成为传世之作。AI生成的音乐虽然可以创作出来,但很难在行业中出类拔萃,因为它缺乏那种能引起共鸣的态度。因此,在这个层面上,AI还没有完全能够取代人类作曲家的情感。

《硅谷101》: 人类作曲要表达情感和共鸣,有时还需要一些运气。如果与整个音乐圈的平均水平相比,你认为AI达到了吗?

叨叨冯:我认为AI的音乐生成能力可以说接近人类的平均水平。如果我们对一万首歌进行排名,AI的音乐可能处于中间位置,比如第四千到第六千首之间。

但问题在于,在音乐产业中,仅仅达到平均水平可能还不足以脱颖而出。我们能想到的经典摇滚乐,每个人可能只能列举出100首或200首真正能够记住并愿意付费去听的作品。而剩下的作品,尽管它们可能高于平均水平,但并不足以在行业中成为顶尖,能够养活一个专业的音乐人,它是否能在音乐产业中生存下去,还是一个问题。

然而,在某些情况下对音乐的要求并不高。比如我可能需要一段摇滚风格的音乐作为短视频的背景音乐,不需要它特别出色。在这种情况下,我认为AI生成的音乐已经足够好了。AI音乐的另一个优势在于,它可以提供更好的定制服务,尤其是在小成本制作中,如影视配乐。现有的免费版权音乐库虽然庞大,但要找到完全符合特定主题的音乐并不容易。而AI可以根据具体的提示词生成更加贴合的音乐,解决了这一问题。但这也仅限于此。

《硅谷101》: 你刚才提到写了80 BPM,但AI似乎无法理解这个指标。这个指标代表什么?

叨叨冯:BPM指的是每分钟80拍,它是音乐速度的一个指标。在音乐中,速度可能是最重要的元素之一。同一首歌,如果把速度放慢两三倍,原本欢快的歌可能就会听起来悲伤;反之,加快速度则可能让悲伤的歌听起来快乐。电影《大腕》中有一个桥段展示了这一点,哀乐加快后听起来就像节日音乐。尽管我相信技术上可以实现,但目前测试结果看来,AI在这方面的控制还不成熟。

《硅谷101》:也跟Roger请教,为什么我们觉得生成的音乐不够悲伤?是因为它不能理解“悲伤”的概念,还是因为它的生成方式做不到?

Roger:冯老师刚才提到,如果对一万首歌进行排序,AI生成的音乐可能排在后7000到8000首,无法达到顶尖水平。这种现象与AI使用的大模型和训练数据有关。

音乐产业是一个头部效应明显的产业,大量的作品其实只能排在尾部。

目前业界使用的数据库主要是免版权音乐库,如Shutterstock Music等,这些库不仅提供音频文件,还有丰富的元数据(Metadata)。

这些训练数据通常不是顶尖音乐,如果生成的音乐与免版权音乐库中的音乐效果相似,从模型学习的角度来看,它就已经达到了目标,这就是为什么AI生成的音乐可能并不出彩。

另一个问题是,当我们听AI生成的音乐时,可能会感觉到不同段落之间的过渡很突然,比如从第一节(Verse 1)到副歌(Chorus)的过渡。这是因为人类作曲通常采用自上而下的逻辑,先确定整体结构,如AABA形式,然后再逐步确定每个部分的和弦进行和配器。

相反,AI模型的生成过程是自左到右的,它没有全局视角,是一步步生成音乐。因此,有时音乐的变化会显得很突然。比如,在生成八句歌词时,如果按照预期每个小节应该唱一句,但AI有时可能会在一个小节中塞入两句歌词,导致后续缺少一句。为了解决这个问题,AI可能会强行加入一句歌词,或者直接通过加入鼓点等手段过渡到下一个部分,这些都是在音乐构建(build up)过程中可能遇到的问题。

另一个问题是关于歌词的“灵魂”。这不能完全归咎于Suno模型,因为它使用的是文本生成模型。AI生成的文本大多是基于互联网上大量文章的抽象,而大多数内容本身是没有“灵魂”的。因此,如何在AI生成的内容中注入情感和灵魂,是一个关键的挑战,也是人类创作者相比AI的一个优势所在。

至于AI为什么无法理解BPM,这让我感到非常惊讶。因为在训练数据中,每首歌的BPM都是有明确标记的。但AI可能并没有利用这些信息,或者在当前版本的模型中,BPM并不是一个重要的考量因素。从技术上讲,这是一个容易解决的问题。

《硅谷101》:刚才你提到训练数据的问题,我们用来训练AI的数据都是来自免费版权音乐库。如果我们使用Taylor Swift、Queen、Coldplay等经典作品作为训练数据,AI是否也能生成类似的作品?

Roger:是的,理论上只要训练数据足够优秀,AI就可以做到。但训练数据不仅仅是音频本身,还需要适当的描述。如果你只是下载了Spotify上的歌曲而不加描述,AI并不知道要学习什么。你必须告诉AI,比如Coldplay的"Yellow"是一首什么样的歌,这样下次AI在看到相似的描述时,就知道要生成一首类似"Yellow"的歌曲。

《硅谷101》:但如果AI生成了一首非常类似于"Yellow"的歌,而且连声音都模仿了Coldplay,这是不是就构成侵权了?

Roger:除非未来能和音乐人达成某种和解。音乐人可能会意识到,一旦打开了潘多拉的魔盒,就无法再收回。他们可能只能接受AI生成音乐的现实,只要给予他们适当的报酬。

《硅谷101》:但至少目前来说,使用音乐人的版权作品作为训练数据还是被禁止的。

Roger:是的,现在有一个名为"Fairly Trained"的组织,专门盯着Suno,不断寻找可能与版权音乐过于相似的作品。如果发现这样的作品,他们可能会采取法律行动。

02 写一首英雄主题的交响乐,AI不及格

《硅谷101》: 关于历史上一些经典交响曲,它们的版权保护情况是怎样的?我印象中有一个公共领域(public domain)的概念,里面的曲子是有版权期限的。

Roger:是的,一般来说是作曲家去世后70年,作品就会进入公共领域。

叨叨冯:一旦进入公共领域,乐谱本身是没有版权的,任何人都可以演奏。但如果你录制了这些乐谱,比如纽约爱乐乐团录制的,那么录音本身是受版权保护的。所以,如果你用这些录音来训练AI,可能还是会有版权问题。除非AI能够使用图像来训练声音,那样可能会避免版权问题。

《硅谷101》: 这意味着可以使用软件一些合成数据,比如先让电脑根据乐谱自动生成声音,然后再用这些合成的声音去训练AI模型,这样做是可以的。

叨叨冯:从版权角度来说,这是可行的。但我担心这样做可能在作曲效果上并不理想。因为即使是现在音乐行业使用的作曲软件,其模拟声音的程度也还不能让人完全满意。最好的电影音乐等作品,仍然需要真人来录制。软件在音色和演奏方法上的细节处理,比如小提琴的不同演奏技巧,目前还达不到完美。如果需要调整每一个乐器的细节,这将非常耗时。

《硅谷101》: 我们刚才讨论了那些历史上非常经典的乐曲,它们在作者去世70年后可以免费使用,这样的乐曲数据库大吗?

Roger:对于唱片行业而言,真正的发展是从20世纪50年代开始的。所以按照这个时间线推算,像猫王这样的艺术家,或者更早的爵士乐先锋的作品,到2020年可能才会逐渐进入公共领域。尽管可能存在一些早期录音,但音质很差。因此,可能还需要再等70年,这些音乐才能被广泛使用。

《硅谷101》: 那我们刚才测试了摇滚乐,现在试试古典乐。

叨叨冯:好的,没问题。这次我们用器乐(instrumental)来测试,我会尝试指定一些乐器。我们希望它生成一个以“英雄”为主题的交响乐,指定弦乐、木管、铜管和打击乐中的定音鼓等乐器,这些都是比较常见的配置。

打开网易新闻 查看精彩图片

叨叨冯:我们来听一听第二首,因为Suno会同时生成两首,可能差别还挺大的。

叨叨冯:我认为第二首曲子相比第一首,听起来更具有英雄气质,同时也更接近交响乐的风格。不过,我个人感觉两首都有点像电影配乐,和真正的交响音乐相比,可能还欠缺一些。

我想再尝试一次,指定为古典音乐风格,并且这次我会标注一个更具体的时间范围,十九世纪,让我们再次生成一首新的曲子试试看。

打开网易新闻 查看精彩图片

叨叨冯:这次指定了时间后,生成的曲子比之前的要好很多。不过,目前还没有听到明显的打击乐部分,如定音鼓等,主要是以低音弦乐为主,木管和铜管部分似乎混合在一起,音色上不太能分辨出来。

这首曲子在旋律写作和节奏上比之前的更接近古典音乐,整体上重复性不高,有了一定的动机并逐渐发展。但要达到真正交响乐的形式,还有一定差距。

还有一个问题是,就是我生成的音乐中有些部分还可以,但感觉像是中彩票一样,有一定的偶然性。虽然有些部分写作水平不错,但对于我特别指定的一些乐器的要求,AI并没有很好地达到。如果我是甲方,而AI是乙方,我会认为乙方没有完全满足我的要求。

《硅谷101》: 能否把AI生成的曲子拿出来,自己再添加一些乐器,修改成甲方能接受的音乐水平?

叨叨冯:这是可能的,但工作量会非常大。现在大家经常开玩笑说,用AI生成的音乐来找灵感比较合适:AI写了一段音乐,可以从中抓取几个小节,作为一个主题(Motive),然后拓展成一首大型交响乐。但要直接用AI生成的作品,目前看来与交响乐的标准还有一定差距。

《硅谷101》: 如果满分是10分,你给AI生成的音乐打多少分?

叨叨冯:从写作听感上来说,可以打6到7分,至少听起来很像那么回事了。如果从严格的角度来说,比如满足乐器要求,我可能只给它打5分。

《硅谷101》: 那Roger 你怎么看?它可能miss掉了我们一些要求它使用的乐器。

Roger:关于第一首曲子当我们在第二次尝试中加入了“十九世纪”这样的标签后,效果有所改善。这归结于训练数据的问题。训练数据集中有两类弦乐流派,AI需要理解并匹配相应的标签来生成音乐。对于古典音乐,有一个专门的流派叫做“master works”,AI必须理解这些术语才能正确生成音乐。如果我们想生成更好的音乐,需要研究训练数据集的标签,这可以提供一些灵感。

关于为什么AI无法精确地复现指定的木管和铜管声音。AI在生成音乐时,并不是基于单个乐器的模型,而是通过分析大量的录音,抽象出音乐的基本元素,然后将这些元素组合起来。AI并没有真正理解什么是铜管或木管,它只是根据提供的特征来生成听起来符合这些特征的音乐。未来的发展方向可能包括声源分离技术的进步,这将允许我们把现有的录音分离成单独的音轨(STEMs),然后对每种乐器进行单独训练,从而让AI对每种乐器有更深入的理解。

谈到AI为音乐人提供灵感的潜力,目前AI主要支持文字输入这一种方式。但技术上,同样的AI架构也完全能够支持音频输入。例如,如果能够允许用户输入一首古典音乐作品,比如莫扎特的曲子,然后通过文字指示AI添加电子鼓等元素,并观察AI如何融合这些元素生成新的音乐,这可能对音乐创作者来说是一个非常有用的工具。

然而,目前的AI音乐生成工具非常大众化,它们假设用户对音乐一无所知,只能通过文字来描述他们想要的音乐风格或元素。这种设计在商业化方面可能是成功的。我相信会有更多公司进入这个细分市场,开发出更专业、更适合音乐人的AI音乐生成工具。

《硅谷101》:冯老师,对于Sono这样的AI音乐产品,我想知道音乐人的普遍态度,是欢迎还是有些抵触?

叨叨冯:我不能代表所有音乐人,只能表达我个人的看法。我知道有些音乐人,比如纽约的200多位艺术家公开对AI技术表示抵制。AI对我们行业确实带来了冲击。我的态度是谨慎乐观。

首先,我们无法抗拒技术发展的潮流。对于低成本音乐制作,AI也有很大的帮助。但我并不特别恐慌,因为人类音乐有一些独特的特性,目前的AI还无法完全实现。

AI主要是基于统计学的,而音乐创作需要更深层次的逻辑和文化积淀。除非AI能跨越基于统计学的局限,发展出真正的智能和创造力,否则我不认为它会对整个音乐行业构成威胁。

我认为AI可以成为音乐人的有力工具,帮助提高创作效率。但AI还无法完全取代人类的创造力和情感表达。

03 面对规则严谨的赋格,Suno会表现得更好吗?

《硅谷101》:在进行AI生成赋格音乐的测试之前,能否先向大家解释一下什么是赋格?然后我们可以播放一首历史上的标准赋格作品,接着对比听听AI生成的赋格。

叨叨冯:赋格是一种复杂的作曲形式,它使用对位法来创作音乐。与现代流行音乐先创作旋律再配上和弦的方式不同,赋格关注的是每个音符或每组音符之间的关系,如何从和谐转变为不和谐,然后再解决回到和谐。赋格创作有很多严格的规则,比如避免使用平行五度和八度等。

在赋格中,通常有一个主题(subject),随后会有其他声部对其进行回应(answer)。通过这种方式,以及一些变化技巧,构建出整个作品。赋格的写作有很多系统性的规则,这些严格的规则最终限制了它的进一步发展。音乐家们觉得需要打破这些框架,探索更多创新的可能性,这也是为什么赋格并没有从文艺复兴时期一直延续到20世纪。

Roger:我来分享一个prompt,是巴赫的托卡塔和赋格。这个prompt取自训练数据集,我想看看如果你输入这个prompt,AI是否能够生成听起来很像巴赫,或者与原曲非常相似的音乐。

叨叨冯:好的,这个提示词描述的是一个d小调的托卡塔与赋格,需要有阴暗和戏剧性的效果,有管风琴独奏,整体给人一种严肃而有力的感觉。这个提示词描述的是巴赫非常著名的曲子,可能是大家最熟悉的作品之一。

AI生成的结果已经出来了,配图是一个教堂,非常贴切。

打开网易新闻 查看精彩图片

叨叨冯:我觉得AI生成的音乐在感觉上很像原曲,但实际差距还是比较明显的。尤其是如果你听过巴赫的原曲,你会发现开头的部分非常震撼。这种震撼感是在教堂或广阔空间中听时最为强烈的。

叨叨冯:我们只比较一下开头的部分。巴赫的曲子开头的震撼感,以及随后清晰的各个声部,是AI目前训练方式难以直接达到的。我最想强调的是,AI生成的曲子在给人的第一印象上与原曲有较大差别。巴赫的曲子在声部的处理上非常清晰,而AI生成的曲子在这方面则显得有些模糊。

在赋格音乐中,有两个声部互相呼应是非常明显的特征。首先是第一个声部提出一个主题,第二个声部对这个主题进行重复,形成一种对话的效果。在赋格写作中,同样的旋律会在不同的声部中重复并进行变奏,但即便在变奏过程中,听众仍然能够识别出它们源自同一主题。

然而,在刚才AI生成的音乐中,声部之间的这种呼应和主题的一致性并不明显,可以说是相当模糊。对我来说,AI生成的音乐听起来混杂不清,各个声部的声音黏在一起。虽然可以辨认出是管风琴的声音和两个声部的存在,但是它们缺乏清晰的主题性和严谨的逻辑性,这是AI目前尚未能够实现的部分。

《硅谷101》:赋格音乐的逻辑性非常严谨,这是否意味着它更适合AI生成?因为AI擅长处理逻辑和公式化的任务。

Roger:AI音乐领域的研究确实已经进行了很多年,包括赋格音乐。巴赫的乐谱在网上很容易找到,AI可以利用这些逻辑性强的音乐数据进行建模。在符号层面,AI已经能够很好地模拟赋格音乐,包括主题和变奏。

但是,目前的端到端生成系统,比如Suno,并不是专门用于生成赋格音乐的。AI生成的效果取决于它的训练数据,如果AI只听过一首赋格曲目,它可能无法很好地学习。在AI音乐生成中,偏向于逻辑推理的AI系统在处理赋格音乐这类音乐时可能会表现得更好。

04 创作者的脑洞大开:在音乐里加入随机数机制

《硅谷101》:冯老师作为专业音乐人,您有没有关于用AI创作音乐的特别问题?

叨叨冯:我们通常认为伟大的作曲家是靠灵感创作,但我认为音乐可能更多地与认知科学有关。所有情绪和思维最终都可以归结为电信号或化学物质。

为什么某些音乐让人感觉欢乐,而另一些让人感觉悲伤?AI在音乐研究过程中与音乐学科有很多交叉,可以进行很多有趣的研究。

《硅谷101》:冯老师曾提到音乐最怕无聊,AI将来能否克服这个问题,创作出既符合逻辑又出人意料的音乐?

叨叨冯:AI能否无中生有,这是关键问题。AI在现有知识的基础上能做得很好,但音乐的发展需要创新,比如从爵士乐发展出摇滚乐。目前AI的工作原理还是基于统计学,它总结人类已有的音乐来生成新作品。艺术需要在人类知识范围之外有所突破,而AI目前还做不到这一点。

如果AI能超越现有模型,发展出真正的创新,那将是非常了不起的。虽然这样的发展还有很长的路要走,但如果AI能演算并发展出全新的音乐形式和风格,我会感到非常兴奋,即便这可能带来一些道德和伦理上的挑战。

《硅谷101》:从技术角度来看,Roger你认为AI是否能够克服生成音乐中的单调和无聊?

Roger:我认为在一定程度上是可能的。音乐就是有组织的声音,某些音乐流派实际上是对现有元素的重新排列组合。例如,不同的节奏模式可以让音乐听起来完全不同,尽管使用的乐器可能相似。这种重新排列组合的方式,包括现在很多流派,如嘻哈音乐的一些分支,都在节奏上进行创新。

如果给AI足够的数据和计算能力,它理论上能够生成符合人类审美的、前所未有的音乐组合。但AI可能无法自动筛选出这些创新组合,这就需要人类的审美参与,进行选择和指导。长期来看,可能会有很多人尝试各种音乐融合,结合非洲、拉丁等民族元素与电子音乐等,创造出新奇的音乐流派。关键在于是否有人能够捕捉到这些创新,并在人类社会中推广它们。

随着人类创作出更多优秀的音乐作品,AI也将获得更高质量的训练数据,形成一种人类与AI共同发展的反馈循环。AI将推动人类音乐家创作出更优秀的作品,而AI自身也将在吸收了这些优秀作品后不断进步。我认为,20年后,无论是人类音乐还是AI音乐,都将达到更高的水平,实现共存和共同进步。

《硅谷101》:这种AI音乐创作的过程,听起来有点像是朝着通用人工智能(AGI)的方向发展。

叨叨冯:我想补充一个可能听起来很无知的建议。目前的AI在一定程度上遵循我们给它设定的标签和逻辑,是否可以在AI中引入一个随机数机制,让AI生成一些真正的随机性,比如新的音色或节奏型。这样可能会产生更新颖、更有趣的结果,而不仅仅是现有元素的重新组合。

这有点像是“上帝掷骰子”的概念。虽然人类作曲家一直在尝试不同的音乐组合,但加入随机性可能会带来真正的创新。我不知道AI是否能够实现这一点。

Roger:实际AI中已经存在一定程度的随机性。比如,即使输入相同的prompt,AI也能输出两首不同的歌曲。这种随机性是在生成过程的每一步中引入的,AI在生成每一小段音频时都会有一定的随机选择。

此外,AI模型中有一个叫做“温度”的参数,可以调整随机性的程度。如果设置得较低,AI会严格按照最大概率选择下一步;如果设置得较高,AI会更愿意探索不那么大概率的选项,从而可能产生一些惊喜。

目前的随机性主要是在生成过程中引入的,但未来我们可能会尝试更多样的随机性,比如在人类能理解的语义层面上进行控制。这样的随机性可能会带来更丰富、更有趣的音乐创作结果。

【相关补充信息】

BPM: beats per minute,度量速度的音乐单位,每分钟多少拍(BPM)表示一个指定的音符,例如四分音符,在一分钟内出现的次数,BPM的数值越大代表速度越快。

Fairly Trained:由来自前Stability AI、Humanistic AI等科技公司高管、知名好莱坞律所和音乐界人士发起的非盈利组织,对涵盖图像、音乐和歌曲生成的人工智能模型进行认证,证明他们已申请使用受版权保护的训练数据的许可。

赋格:为拉丁文“fuga”的译音,是盛行于巴洛克时期的一种复调音乐体裁,又称“遁走曲”,是复调音乐中最为复杂而严谨的曲体形式。赋格的结构与写法比较规范。乐曲开始时,以单声部形式贯穿全曲的主要音乐素材称为“主题”,与主题形成对位关系的称为“对题”,之后该主题及对题可以在不同声部中轮流出现,主题与主题之间也常有过渡性的乐句作音乐的对比。

掩蔽效应:是指由于出现多个同一类别(如声音、图像等)的刺激,导致被试不能完整接受全部刺激的信息。具体分为视觉掩蔽效应和听觉掩蔽效应。其中,听觉掩蔽效应是指人的耳朵只对最明显的声音反应敏感,而对于不敏感的声音,反应则较为不敏感。例如在声音的整个频率谱中,如果某一个频率段的声音比较强,则人就对其它频率段的声音不敏感了。