Suno引爆音乐圈，与音乐人聊聊AI生成音乐与艺术的随机数|古典音乐|巴赫|歌曲|赋格

AIGC的风终究是吹到了音乐圈——今年3月，“音乐届的ChatGPT” Suno V3粉墨登场，用户只需要在Suno上输入一句话的提示词，即可在数秒内生成两首两分钟的完整歌曲，从作词、作曲、演奏到人声演唱一气呵成，大大降低了普通人创作音乐的门槛。

已经习惯了各类“AI歌手翻唱”的听众和用户迅速拥抱了Suno，从《宫保鸡丁咏叹调》到《让我们荡起双桨》重金属，从英语、日语、俄语到普通话甚至是粤语，网友们自发上传的作品包罗万象，网易云音乐、QQ音乐等平台也迅速上线了SunoAI音乐专区，甚至还推出了定期更新的官方推荐歌单。

本期《硅谷101》邀请到了来自音乐和AI音乐生成领域的两位嘉宾，知名音乐博主“叨叨冯” 冯建鹏，美国哈特福德大学哈特音乐学院打击乐讲师，百老汇全职演奏家和Roger Chen, Meta Music Tech Lead，分享他们对以Suno为代表的文生音乐模型的看法，以及AI如何影响音乐产业的未来。

本期亮点：

⭕️为什么大家感觉是Suno是最火的呢？因为他敢最先把文生音乐模型公之于众

⭕️【测评一】“找不到工作的悲伤摇滚乐”，结果并不悲伤

⭕️能听但没有态度，AI只能写出不愤怒的摇滚乐

⭕️AI写的歌可以达到业界平均水平，但无法出挑成为头部作品

⭕️速度是音乐创作最重要的指标之一，为什么AI写不出80 BPM的音乐？

⭕️AI写歌与人类作曲不是一个逻辑，只能从左到右按顺序写，没有全局观

⭕️训练素材足够全面和丰富，AI可能写出Taylor Swift水平的歌曲?

⭕️同样的音乐，水平不同的演唱者演奏出来也不一样

⭕️【测评二】英雄主题的交响乐，听感能得7分，作为乙方它不及格

⭕️Suno不能按提示词生成指定的乐器，它只追求听上去大概相似

⭕️AI生成音乐是无法抗拒的洪流，但暂时做不到像音乐家一样写歌

⭕️【测评三】挑战规则严谨的赋格，Suno会表现得更好吗？

⭕️赋格研究在AI音乐有20年历史，不过在巴赫的原曲面前还很稚嫩

⭕️音乐技术与心理学：Mp3技术是如何被发明出来的？

⭕️音乐的本质是“有组织的声音”，这是文生音乐大模型的底层逻辑

⭕️最怕无聊？艺术需要跳出人类总结

⭕️创作者的脑洞大开：在音乐里加入随机数机制

01 让AI写一首“失业的悲伤摇滚”，结果并不悲伤

《硅谷101》：除了 Suno 以外，最近还有其他的几款生成音乐的软件，为什么感觉是 Suno 是最火的呢？

Roger：因为 Suno 是最胆大的，敢最先发布他们的 AI 生成音乐的模型。其他大公司，比如说 Facebook、 Google，其实技术是领先的，但有很多的考虑，除了把这个技术发布出去，还要考虑它可能会对社会造成的影响。

尤其音乐，不像文字或者图像，它的版权问题其实是一个非常敏感的话题。如果你有海量的数据，假设你把世界上所有的歌都用来训练一个模型，那它肯定是能够做出一个很好的效果。但是它就会可能面临很多的法律问题，甚至说你把这整个音乐产业的格局给改变了，蛋糕就这么大，最后怎么去分？跟唱片公司、出版商去分钱？这些问题如果没有想清楚的话，后果可能不堪设想。

《硅谷101》：听起来很危险。其实不是技术问题，而是版权问题。

那让我们先听一听Suno到底实力如何吧。请冯老师给大家做一个现场测试，挑战一些专业、有难度的音乐生成。我们也可以帮您出一些题，比如写一首悲伤的摇滚乐，主题是“失业”或者“面试失败”。

叨叨冯：好的，那我们就让Suno自己写歌词，我们在音乐的属性上做一些限定：sad story of not finding a job, Classic Rock, 80 BPM, Guitar, Base, Drum, Keyboard.

《硅谷101》: 它自己取的这个名字还挺有艺术感。

叨叨冯：我觉得从它生成词来说，跟我的主题是符合的。但是从音乐的角度来说，我们指定的是“sad story”，我没有听出太多的态度。音乐本身是 average level，可以符合我们的要求，至少说有摇滚的意思。

我之前测试了很多中文歌曲，相比较之下，英文歌曲在AI生成时似乎更加成熟一些。AI对英文歌词的理解以及转换成音乐的能力似乎更进一步。但在音乐本身的结构上，比如摇滚乐，它通常包含两个verse（主歌）和随后的chorus（副歌）。在AI生成的音乐中，从主歌过渡到副歌时，感觉缺少了一种递进感，一种推动力。也就是说，我们能听到主歌直接切换到了副歌，缺少了那种在器乐上逐渐构建起来、推向高潮的“build up”（积累感），就像是在达到高潮前需要有一个积累、然后爆发的过程，而AI生成的音乐缺少了这最后的推动。

然而，AI在两个主歌之间的区分上做得还不错，生成了一个较好的间奏。在音乐创作中，如果由人类来作曲，通常主歌之间的情绪变化不会太大，但主歌过渡到副歌时，情绪变化会更明显。

AI创作音乐时，相比真人作曲，最大的问题在于它缺乏一种“态度”。换句话说，它缺少一个创作的动机。如果我是一个真人作曲家，写歌背后一定有一些具体的原因，比如找不到工作的沮丧，或者对某些事情的愤怒。这些情绪会让音乐听起来更具有相应的情感色彩。

目前AI生成的音乐，虽然能满足基本的文字描述需求，但在作曲和编曲中体现人类情感方面，我的测试结果显示AI暂时还做不到。音乐之所以成为经典，是因为它承载的人文精神和态度引起了人们的共鸣。尽管有成千上万首摇滚乐，但只有少数几首能够成为传世之作。AI生成的音乐虽然可以创作出来，但很难在行业中出类拔萃，因为它缺乏那种能引起共鸣的态度。因此，在这个层面上，AI还没有完全能够取代人类作曲家的情感。

《硅谷101》: 人类作曲要表达情感和共鸣，有时还需要一些运气。如果与整个音乐圈的平均水平相比，你认为AI达到了吗？

叨叨冯：我认为AI的音乐生成能力可以说接近人类的平均水平。如果我们对一万首歌进行排名，AI的音乐可能处于中间位置，比如第四千到第六千首之间。

但问题在于，在音乐产业中，仅仅达到平均水平可能还不足以脱颖而出。我们能想到的经典摇滚乐，每个人可能只能列举出100首或200首真正能够记住并愿意付费去听的作品。而剩下的作品，尽管它们可能高于平均水平，但并不足以在行业中成为顶尖，能够养活一个专业的音乐人，它是否能在音乐产业中生存下去，还是一个问题。

然而，在某些情况下对音乐的要求并不高。比如我可能需要一段摇滚风格的音乐作为短视频的背景音乐，不需要它特别出色。在这种情况下，我认为AI生成的音乐已经足够好了。AI音乐的另一个优势在于，它可以提供更好的定制服务，尤其是在小成本制作中，如影视配乐。现有的免费版权音乐库虽然庞大，但要找到完全符合特定主题的音乐并不容易。而AI可以根据具体的提示词生成更加贴合的音乐，解决了这一问题。但这也仅限于此。

《硅谷101》: 你刚才提到写了80 BPM，但AI似乎无法理解这个指标。这个指标代表什么？

叨叨冯：BPM指的是每分钟80拍，它是音乐速度的一个指标。在音乐中，速度可能是最重要的元素之一。同一首歌，如果把速度放慢两三倍，原本欢快的歌可能就会听起来悲伤；反之，加快速度则可能让悲伤的歌听起来快乐。电影《大腕》中有一个桥段展示了这一点，哀乐加快后听起来就像节日音乐。尽管我相信技术上可以实现，但目前测试结果看来，AI在这方面的控制还不成熟。

《硅谷101》：也跟Roger请教，为什么我们觉得生成的音乐不够悲伤？是因为它不能理解“悲伤”的概念，还是因为它的生成方式做不到？

Roger：冯老师刚才提到，如果对一万首歌进行排序，AI生成的音乐可能排在后7000到8000首，无法达到顶尖水平。这种现象与AI使用的大模型和训练数据有关。

音乐产业是一个头部效应明显的产业，大量的作品其实只能排在尾部。

目前业界使用的数据库主要是免版权音乐库，如Shutterstock Music等，这些库不仅提供音频文件，还有丰富的元数据（Metadata）。

这些训练数据通常不是顶尖音乐，如果生成的音乐与免版权音乐库中的音乐效果相似，从模型学习的角度来看，它就已经达到了目标，这就是为什么AI生成的音乐可能并不出彩。

另一个问题是，当我们听AI生成的音乐时，可能会感觉到不同段落之间的过渡很突然，比如从第一节（Verse 1）到副歌（Chorus）的过渡。这是因为人类作曲通常采用自上而下的逻辑，先确定整体结构，如AABA形式，然后再逐步确定每个部分的和弦进行和配器。

相反，AI模型的生成过程是自左到右的，它没有全局视角，是一步步生成音乐。因此，有时音乐的变化会显得很突然。比如，在生成八句歌词时，如果按照预期每个小节应该唱一句，但AI有时可能会在一个小节中塞入两句歌词，导致后续缺少一句。为了解决这个问题，AI可能会强行加入一句歌词，或者直接通过加入鼓点等手段过渡到下一个部分，这些都是在音乐构建（build up）过程中可能遇到的问题。

另一个问题是关于歌词的“灵魂”。这不能完全归咎于Suno模型，因为它使用的是文本生成模型。AI生成的文本大多是基于互联网上大量文章的抽象，而大多数内容本身是没有“灵魂”的。因此，如何在AI生成的内容中注入情感和灵魂，是一个关键的挑战，也是人类创作者相比AI的一个优势所在。

至于AI为什么无法理解BPM，这让我感到非常惊讶。因为在训练数据中，每首歌的BPM都是有明确标记的。但AI可能并没有利用这些信息，或者在当前版本的模型中，BPM并不是一个重要的考量因素。从技术上讲，这是一个容易解决的问题。

《硅谷101》：刚才你提到训练数据的问题，我们用来训练AI的数据都是来自免费版权音乐库。如果我们使用Taylor Swift、Queen、Coldplay等经典作品作为训练数据，AI是否也能生成类似的作品？

Roger：是的，理论上只要训练数据足够优秀，AI就可以做到。但训练数据不仅仅是音频本身，还需要适当的描述。如果你只是下载了Spotify上的歌曲而不加描述，AI并不知道要学习什么。你必须告诉AI，比如Coldplay的"Yellow"是一首什么样的歌，这样下次AI在看到相似的描述时，就知道要生成一首类似"Yellow"的歌曲。

《硅谷101》：但如果AI生成了一首非常类似于"Yellow"的歌，而且连声音都模仿了Coldplay，这是不是就构成侵权了？

Roger：除非未来能和音乐人达成某种和解。音乐人可能会意识到，一旦打开了潘多拉的魔盒，就无法再收回。他们可能只能接受AI生成音乐的现实，只要给予他们适当的报酬。

《硅谷101》：但至少目前来说，使用音乐人的版权作品作为训练数据还是被禁止的。

Roger：是的，现在有一个名为"Fairly Trained"的组织，专门盯着Suno，不断寻找可能与版权音乐过于相似的作品。如果发现这样的作品，他们可能会采取法律行动。

02 写一首英雄主题的交响乐，AI不及格

《硅谷101》: 关于历史上一些经典交响曲，它们的版权保护情况是怎样的？我印象中有一个公共领域（public domain）的概念，里面的曲子是有版权期限的。

Roger：是的，一般来说是作曲家去世后70年，作品就会进入公共领域。

叨叨冯：一旦进入公共领域，乐谱本身是没有版权的，任何人都可以演奏。但如果你录制了这些乐谱，比如纽约爱乐乐团录制的，那么录音本身是受版权保护的。所以，如果你用这些录音来训练AI，可能还是会有版权问题。除非AI能够使用图像来训练声音，那样可能会避免版权问题。

《硅谷101》: 这意味着可以使用软件一些合成数据，比如先让电脑根据乐谱自动生成声音，然后再用这些合成的声音去训练AI模型，这样做是可以的。

叨叨冯：从版权角度来说，这是可行的。但我担心这样做可能在作曲效果上并不理想。因为即使是现在音乐行业使用的作曲软件，其模拟声音的程度也还不能让人完全满意。最好的电影音乐等作品，仍然需要真人来录制。软件在音色和演奏方法上的细节处理，比如小提琴的不同演奏技巧，目前还达不到完美。如果需要调整每一个乐器的细节，这将非常耗时。

《硅谷101》: 我们刚才讨论了那些历史上非常经典的乐曲，它们在作者去世70年后可以免费使用，这样的乐曲数据库大吗？

Roger：对于唱片行业而言，真正的发展是从20世纪50年代开始的。所以按照这个时间线推算，像猫王这样的艺术家，或者更早的爵士乐先锋的作品，到2020年可能才会逐渐进入公共领域。尽管可能存在一些早期录音，但音质很差。因此，可能还需要再等70年，这些音乐才能被广泛使用。

《硅谷101》: 那我们刚才测试了摇滚乐，现在试试古典乐。

叨叨冯：好的，没问题。这次我们用器乐（instrumental）来测试，我会尝试指定一些乐器。我们希望它生成一个以“英雄”为主题的交响乐，指定弦乐、木管、铜管和打击乐中的定音鼓等乐器，这些都是比较常见的配置。

叨叨冯：我们来听一听第二首，因为Suno会同时生成两首，可能差别还挺大的。

叨叨冯：我认为第二首曲子相比第一首，听起来更具有英雄气质，同时也更接近交响乐的风格。不过，我个人感觉两首都有点像电影配乐，和真正的交响音乐相比，可能还欠缺一些。

我想再尝试一次，指定为古典音乐风格，并且这次我会标注一个更具体的时间范围，十九世纪，让我们再次生成一首新的曲子试试看。

叨叨冯：这次指定了时间后，生成的曲子比之前的要好很多。不过，目前还没有听到明显的打击乐部分，如定音鼓等，主要是以低音弦乐为主，木管和铜管部分似乎混合在一起，音色上不太能分辨出来。

这首曲子在旋律写作和节奏上比之前的更接近古典音乐，整体上重复性不高，有了一定的动机并逐渐发展。但要达到真正交响乐的形式，还有一定差距。

还有一个问题是，就是我生成的音乐中有些部分还可以，但感觉像是中彩票一样，有一定的偶然性。虽然有些部分写作水平不错，但对于我特别指定的一些乐器的要求，AI并没有很好地达到。如果我是甲方，而AI是乙方，我会认为乙方没有完全满足我的要求。

《硅谷101》: 能否把AI生成的曲子拿出来，自己再添加一些乐器，修改成甲方能接受的音乐水平？

叨叨冯：这是可能的，但工作量会非常大。现在大家经常开玩笑说，用AI生成的音乐来找灵感比较合适：AI写了一段音乐，可以从中抓取几个小节，作为一个主题（Motive），然后拓展成一首大型交响乐。但要直接用AI生成的作品，目前看来与交响乐的标准还有一定差距。

《硅谷101》: 如果满分是10分，你给AI生成的音乐打多少分？

叨叨冯：从写作听感上来说，可以打6到7分，至少听起来很像那么回事了。如果从严格的角度来说，比如满足乐器要求，我可能只给它打5分。

《硅谷101》: 那Roger 你怎么看？它可能miss掉了我们一些要求它使用的乐器。

Roger：关于第一首曲子当我们在第二次尝试中加入了“十九世纪”这样的标签后，效果有所改善。这归结于训练数据的问题。训练数据集中有两类弦乐流派，AI需要理解并匹配相应的标签来生成音乐。对于古典音乐，有一个专门的流派叫做“master works”，AI必须理解这些术语才能正确生成音乐。如果我们想生成更好的音乐，需要研究训练数据集的标签，这可以提供一些灵感。

关于为什么AI无法精确地复现指定的木管和铜管声音。AI在生成音乐时，并不是基于单个乐器的模型，而是通过分析大量的录音，抽象出音乐的基本元素，然后将这些元素组合起来。AI并没有真正理解什么是铜管或木管，它只是根据提供的特征来生成听起来符合这些特征的音乐。未来的发展方向可能包括声源分离技术的进步，这将允许我们把现有的录音分离成单独的音轨（STEMs），然后对每种乐器进行单独训练，从而让AI对每种乐器有更深入的理解。

谈到AI为音乐人提供灵感的潜力，目前AI主要支持文字输入这一种方式。但技术上，同样的AI架构也完全能够支持音频输入。例如，如果能够允许用户输入一首古典音乐作品，比如莫扎特的曲子，然后通过文字指示AI添加电子鼓等元素，并观察AI如何融合这些元素生成新的音乐，这可能对音乐创作者来说是一个非常有用的工具。

然而，目前的AI音乐生成工具非常大众化，它们假设用户对音乐一无所知，只能通过文字来描述他们想要的音乐风格或元素。这种设计在商业化方面可能是成功的。我相信会有更多公司进入这个细分市场，开发出更专业、更适合音乐人的AI音乐生成工具。

《硅谷101》:冯老师，对于Sono这样的AI音乐产品，我想知道音乐人的普遍态度，是欢迎还是有些抵触？

叨叨冯：我不能代表所有音乐人，只能表达我个人的看法。我知道有些音乐人，比如纽约的200多位艺术家公开对AI技术表示抵制。AI对我们行业确实带来了冲击。我的态度是谨慎乐观。

首先，我们无法抗拒技术发展的潮流。对于低成本音乐制作，AI也有很大的帮助。但我并不特别恐慌，因为人类音乐有一些独特的特性，目前的AI还无法完全实现。

AI主要是基于统计学的，而音乐创作需要更深层次的逻辑和文化积淀。除非AI能跨越基于统计学的局限，发展出真正的智能和创造力，否则我不认为它会对整个音乐行业构成威胁。

我认为AI可以成为音乐人的有力工具，帮助提高创作效率。但AI还无法完全取代人类的创造力和情感表达。

03 面对规则严谨的赋格，Suno会表现得更好吗？

《硅谷101》：在进行AI生成赋格音乐的测试之前，能否先向大家解释一下什么是赋格？然后我们可以播放一首历史上的标准赋格作品，接着对比听听AI生成的赋格。

叨叨冯：赋格是一种复杂的作曲形式，它使用对位法来创作音乐。与现代流行音乐先创作旋律再配上和弦的方式不同，赋格关注的是每个音符或每组音符之间的关系，如何从和谐转变为不和谐，然后再解决回到和谐。赋格创作有很多严格的规则，比如避免使用平行五度和八度等。

在赋格中，通常有一个主题（subject），随后会有其他声部对其进行回应（answer）。通过这种方式，以及一些变化技巧，构建出整个作品。赋格的写作有很多系统性的规则，这些严格的规则最终限制了它的进一步发展。音乐家们觉得需要打破这些框架，探索更多创新的可能性，这也是为什么赋格并没有从文艺复兴时期一直延续到20世纪。

Roger：我来分享一个prompt，是巴赫的托卡塔和赋格。这个prompt取自训练数据集，我想看看如果你输入这个prompt，AI是否能够生成听起来很像巴赫，或者与原曲非常相似的音乐。

叨叨冯：好的，这个提示词描述的是一个d小调的托卡塔与赋格，需要有阴暗和戏剧性的效果，有管风琴独奏，整体给人一种严肃而有力的感觉。这个提示词描述的是巴赫非常著名的曲子，可能是大家最熟悉的作品之一。

AI生成的结果已经出来了，配图是一个教堂，非常贴切。

叨叨冯：我觉得AI生成的音乐在感觉上很像原曲，但实际差距还是比较明显的。尤其是如果你听过巴赫的原曲，你会发现开头的部分非常震撼。这种震撼感是在教堂或广阔空间中听时最为强烈的。

叨叨冯：我们只比较一下开头的部分。巴赫的曲子开头的震撼感，以及随后清晰的各个声部，是AI目前训练方式难以直接达到的。我最想强调的是，AI生成的曲子在给人的第一印象上与原曲有较大差别。巴赫的曲子在声部的处理上非常清晰，而AI生成的曲子在这方面则显得有些模糊。

在赋格音乐中，有两个声部互相呼应是非常明显的特征。首先是第一个声部提出一个主题，第二个声部对这个主题进行重复，形成一种对话的效果。在赋格写作中，同样的旋律会在不同的声部中重复并进行变奏，但即便在变奏过程中，听众仍然能够识别出它们源自同一主题。

然而，在刚才AI生成的音乐中，声部之间的这种呼应和主题的一致性并不明显，可以说是相当模糊。对我来说，AI生成的音乐听起来混杂不清，各个声部的声音黏在一起。虽然可以辨认出是管风琴的声音和两个声部的存在，但是它们缺乏清晰的主题性和严谨的逻辑性，这是AI目前尚未能够实现的部分。

《硅谷101》：赋格音乐的逻辑性非常严谨，这是否意味着它更适合AI生成？因为AI擅长处理逻辑和公式化的任务。

Roger：AI音乐领域的研究确实已经进行了很多年，包括赋格音乐。巴赫的乐谱在网上很容易找到，AI可以利用这些逻辑性强的音乐数据进行建模。在符号层面，AI已经能够很好地模拟赋格音乐，包括主题和变奏。

但是，目前的端到端生成系统，比如Suno，并不是专门用于生成赋格音乐的。AI生成的效果取决于它的训练数据，如果AI只听过一首赋格曲目，它可能无法很好地学习。在AI音乐生成中，偏向于逻辑推理的AI系统在处理赋格音乐这类音乐时可能会表现得更好。

04 创作者的脑洞大开：在音乐里加入随机数机制

《硅谷101》：冯老师作为专业音乐人，您有没有关于用AI创作音乐的特别问题？

叨叨冯：我们通常认为伟大的作曲家是靠灵感创作，但我认为音乐可能更多地与认知科学有关。所有情绪和思维最终都可以归结为电信号或化学物质。

为什么某些音乐让人感觉欢乐，而另一些让人感觉悲伤？AI在音乐研究过程中与音乐学科有很多交叉，可以进行很多有趣的研究。

《硅谷101》：冯老师曾提到音乐最怕无聊，AI将来能否克服这个问题，创作出既符合逻辑又出人意料的音乐？

叨叨冯：AI能否无中生有，这是关键问题。AI在现有知识的基础上能做得很好，但音乐的发展需要创新，比如从爵士乐发展出摇滚乐。目前AI的工作原理还是基于统计学，它总结人类已有的音乐来生成新作品。艺术需要在人类知识范围之外有所突破，而AI目前还做不到这一点。

如果AI能超越现有模型，发展出真正的创新，那将是非常了不起的。虽然这样的发展还有很长的路要走，但如果AI能演算并发展出全新的音乐形式和风格，我会感到非常兴奋，即便这可能带来一些道德和伦理上的挑战。

《硅谷101》：从技术角度来看，Roger你认为AI是否能够克服生成音乐中的单调和无聊？

Roger：我认为在一定程度上是可能的。音乐就是有组织的声音，某些音乐流派实际上是对现有元素的重新排列组合。例如，不同的节奏模式可以让音乐听起来完全不同，尽管使用的乐器可能相似。这种重新排列组合的方式，包括现在很多流派，如嘻哈音乐的一些分支，都在节奏上进行创新。

如果给AI足够的数据和计算能力，它理论上能够生成符合人类审美的、前所未有的音乐组合。但AI可能无法自动筛选出这些创新组合，这就需要人类的审美参与，进行选择和指导。长期来看，可能会有很多人尝试各种音乐融合，结合非洲、拉丁等民族元素与电子音乐等，创造出新奇的音乐流派。关键在于是否有人能够捕捉到这些创新，并在人类社会中推广它们。

随着人类创作出更多优秀的音乐作品，AI也将获得更高质量的训练数据，形成一种人类与AI共同发展的反馈循环。AI将推动人类音乐家创作出更优秀的作品，而AI自身也将在吸收了这些优秀作品后不断进步。我认为，20年后，无论是人类音乐还是AI音乐，都将达到更高的水平，实现共存和共同进步。

《硅谷101》：这种AI音乐创作的过程，听起来有点像是朝着通用人工智能（AGI）的方向发展。

叨叨冯：我想补充一个可能听起来很无知的建议。目前的AI在一定程度上遵循我们给它设定的标签和逻辑，是否可以在AI中引入一个随机数机制，让AI生成一些真正的随机性，比如新的音色或节奏型。这样可能会产生更新颖、更有趣的结果，而不仅仅是现有元素的重新组合。

这有点像是“上帝掷骰子”的概念。虽然人类作曲家一直在尝试不同的音乐组合，但加入随机性可能会带来真正的创新。我不知道AI是否能够实现这一点。

Roger：实际AI中已经存在一定程度的随机性。比如，即使输入相同的prompt，AI也能输出两首不同的歌曲。这种随机性是在生成过程的每一步中引入的，AI在生成每一小段音频时都会有一定的随机选择。

此外，AI模型中有一个叫做“温度”的参数，可以调整随机性的程度。如果设置得较低，AI会严格按照最大概率选择下一步；如果设置得较高，AI会更愿意探索不那么大概率的选项，从而可能产生一些惊喜。

目前的随机性主要是在生成过程中引入的，但未来我们可能会尝试更多样的随机性，比如在人类能理解的语义层面上进行控制。这样的随机性可能会带来更丰富、更有趣的音乐创作结果。

【相关补充信息】

BPM: beats per minute，度量速度的音乐单位，每分钟多少拍（BPM）表示一个指定的音符，例如四分音符，在一分钟内出现的次数，BPM的数值越大代表速度越快。

Fairly Trained：由来自前Stability AI、Humanistic AI等科技公司高管、知名好莱坞律所和音乐界人士发起的非盈利组织，对涵盖图像、音乐和歌曲生成的人工智能模型进行认证，证明他们已申请使用受版权保护的训练数据的许可。

赋格：为拉丁文“fuga”的译音，是盛行于巴洛克时期的一种复调音乐体裁，又称“遁走曲”，是复调音乐中最为复杂而严谨的曲体形式。赋格的结构与写法比较规范。乐曲开始时，以单声部形式贯穿全曲的主要音乐素材称为“主题”，与主题形成对位关系的称为“对题”，之后该主题及对题可以在不同声部中轮流出现，主题与主题之间也常有过渡性的乐句作音乐的对比。

掩蔽效应：是指由于出现多个同一类别（如声音、图像等）的刺激，导致被试不能完整接受全部刺激的信息。具体分为视觉掩蔽效应和听觉掩蔽效应。其中，听觉掩蔽效应是指人的耳朵只对最明显的声音反应敏感，而对于不敏感的声音，反应则较为不敏感。例如在声音的整个频率谱中，如果某一个频率段的声音比较强，则人就对其它频率段的声音不敏感了。