上海艺术评论丨苏嘉伟：人工智能音乐生成技术的发展与创新研究|上海市|人工智能|算法|苏嘉伟|计算机|超级智能|音乐

艺科界

人工智能音乐生成技术的发展与创新研究

音乐在人类文明中不可或缺，科技迭代尤其是人工智能深刻影响其创作与传播，扩散模型（Diffusion Models）与Transformer架构融合推动AI音乐生成技术向商业化转型。2024年其市场价值达6.42亿美元，预计2030年增至30亿美元，年复合增长率29.5%。

人工智能音乐疗愈空间

人工智能音乐生成技术的早期发展

人工智能在各个行业产生了巨大的影响，音乐行业也不可避免地与之接触。人工智能与音乐的融合、人工智能促成的音乐融合，已然吸引了众多艺术家、科学家以及科研人员开展研究。人工智能与音乐的交互融合是一项具有鲜明交叉学科属性的研究，回望人工智能技术发展的漫漫长河，时间回溯至20世纪50年代，艺术家莱杰伦‧希勒和伦纳德‧艾萨克森共同创作的作品《Illiac Suite》是早期人工智能生成音乐的重要作品，学术界普遍将其视为人工智能生成音乐的首个重要实例。

该作品的核心逻辑仍建立在传统音乐艺术的特性之上。该作品的核心技术是使用马卡洛夫链（Markov Chain）模型产生随机音符，这些音符的排列并非无序，模型要求它们根据传统的和声以及复调规律进行测试，不断修改组合，最终形成一首完整的弦乐四重奏作品。这部作品在学术界被普遍认为是第一部由电子计算机创作的乐谱，其核心逻辑并未脱离传统音乐创作的框架。

随着人工智能技术的不断发展，越来越多的研究者开始研究计算机算法音乐。例如1960年俄罗斯艺术理论学者拉希德‧卡里莫维奇‧扎里波夫发表了第一篇有关计算机算法作曲的论文。1965年发明家雷‧库兹韦尔公演了一部完全利用计算机创作的钢琴作品等。最具有代表性的例子当数大卫‧科佩在20世纪80年代组织的EMI项目，即“音乐智能实验”（Experiments in Musical Intelligence）。

大卫‧科佩是美国作曲家、音乐教授，他致力于研究人工智能与音乐的有机融合，研究范围涵盖算法音乐与编程技术等。EMI系统是基于Lisp语言的编程系统，能以极高的效率和可观的效果模仿大量作曲家的创作风格，其可模仿的音乐元素包括旋律、和声、乐曲结构以及一些简单的配器组合逻辑。EMI系统创作的作品，从简单的音乐小品、短小的乐句片段到完整的歌剧不等，涵盖了巴赫、莫扎特、肖邦等众多音乐家的艺术风格。EMI的核心理念被大卫‧科佩称为重组法（Recombinant），其基本逻辑是建立在大量音乐分析的基础上，对基础音乐元素进行风格解析及标签化定义，再极其小心地将这些音乐要素进行排列重组，以此生成作品。大卫‧科佩致力于算法作曲研究数十年，其间还开发了诸如Emily Howell程序等，用于模拟音乐创作。这套系统的诞生革新了人机交互反馈环节，无论是输入自然语言指令，还是提交音符修改方案，都能有效地改善Emily的算法，且这套程序完全开源，在当时也引起了不小的反响。

大卫‧科佩的作品涵盖领域极广，包括一些非常规的器乐及演奏技法，以及他自行研究的33音系统的微分音调等。但归根结底，他所有的作品都是在计算机协助下完成的。大卫‧科佩也是早期利用人工智能技术进行算法作曲的代表人物之一。

随着技术的不断革新，机器学习与深度神经网络技术的出现，也为人工智能技术的应用模式增添了诸多可能性。笔者在2020年前后研究了一些基于人工神经网络的音乐生成实例，当时也参考了许多早期的人工智能音乐生成系统，诸如Google团队的Magenta系统、剑桥大学早期开源项目Bachbot以及WaveNet系统等。人工智能发展速度相当快，与现在主流的音乐生成系统Suno、Udio相比，早期这些系统生成的音乐质量与当下相比仍有明显差距，其中也足见算法模型、应用技术的飞速发展。

人工智能音乐的诞生离不开算法的不断进步，马尔可夫链、循环网络（Recurrent Network）的出现，都给人工智能音乐创作注入了全新的活力，而扩散模型Diffusion Models以及Transformer架构的出现，真正意义上将人工智能音乐生成技术带入了一个崭新的次元。

人工智能音乐疗愈空间

音乐生成技术新范式：扩散模型与DiT架构

1.扩散模型

音乐生成是人工智能与音乐交叉领域的一个重要研究方向，其核心是利用一定的规则及算法逻辑生成具有音乐性的片段。现如今，自媒体大放异彩，音乐生成技术已不是什么新鲜话题，在人工智能视频艺术、影视音乐、游戏音乐、音乐个性化推荐等领域都有广泛的应用前景。而本文要谈到的扩散模型，则是当前生成式模型中冉冉升起的新星之一。

相比于传统的音乐生成方法，扩散模型在生成效果上有明显的提升，它不仅可以生成细节、生成音乐要素更为丰富完整的乐曲片段，还能处理较为复杂的音乐结构及非线性变化。扩散模型的生成逻辑和去噪效果器的工作方式颇为相似，其工作原理是从纯噪声学习开始，通过不断过滤不需要的“杂质”，最终生成所需对象。这种通过模拟物理环境中扩散过程生成音乐的方式，在诸多典型算法中均有体现。例如基于扩散模型的音频生成模型DiffWave，主要用于生成高质量的Wave音乐片段；还有基于扩散模型的音乐生成模型Jukebox，主要用于生成多轨音乐。

诸多现代商业音乐生成软件中，也运用了潜在空间扩散的方法，例如Suno以及Udio等。它们的工作原理主要聚焦于处理原始波形，通过音频编码器将原始波形压缩，存储于低维潜在表示中，形成特有的潜在空间，并在这个潜在空间中完成扩散过程。这种方法的运用大幅度节约了成本，通过更合理的资源配比完成运算。

2.Diffusion与Transformer架构的巧妙融合DiT

Transformer架构是音乐生成中常用的架构，在具体的技术实现中，它可以处理多层次的音乐信息，运用多维化的表示方法进行运作。笔者在硕士研究生阶段使用Transformer架构进行过一定的音乐生成尝试。笔者在论文中提到“音乐符号化”这个概念，它和Transformer架构中的符号化表示相契合，同时也能体现出这种表示方式的优劣势。笔者搜集了大量MIDI音频文件进行训练，符号化表示的优势在于，可以对涉及的音值、力度、时值等音乐元素有精确的认知；而其劣势在于，生成的音乐在音乐性和表现力上比较逊色。Transformer架构中的表示形式还有音频特征表示等，目前人工智能生成系统采用分层运算逻辑，在不同层次上运用不同的表示形式，通过叠加多层网络的方式，提高音乐生成的质量和表现力。

Transformer架构能够精确理解和分析大量音乐要素，尤其在音乐序列建模组件中，在理解及生成音乐的时序结构方面占据重要地位。目前，基于Transformer架构的尝试和应用在人工智能音乐生成领域也非常普遍，而全新的混合架构——Diffusion Transformer（即DiT架构）也随之出现。

DiT架构融合了Diffusion Models和Transformer架构双方的优点，即高质量生成能力和强大的序列建模能力。在人工智能领域的发展过程中，OpenAI推出的视频生成模型Sora在效果上可谓遥遥领先。诸多博客及学术论坛上，有大量关于Sora的介绍及应用实例。截至目前，Sora2已应用于大量视频、视觉生成场景中。Sora的核心模型主干正是上述提到的DiT，即Diffusion Transformer架构。

DiT的核心思想在于，利用Transformer作为扩散模型的骨干网络。2024年，学术界已有论文提出，传统意义上扩散模型中常用的卷积神经网络（诸如U-Net等）并非无可替代，尝试用Transformer替代原有的骨干网络后，取得了令人惊喜的效果。

DiT的工作流程主要由数据预处理、噪声引入、模型训练、图像/视频生成等几个重要节点组成。就像前文提到的那样，在扩散模型中，基本的运算逻辑是利用类似过滤噪声的方式得到最终数据，而在DiT的工作流程中，保留了扩散模型的根本逻辑。

第一，DiT将输入架构中的图像、视频等文件进行patch分割——所谓patches可以理解为分解得到的数据模块；第二，完成分割转换后，DiT会将这些patches转换为特征向量；第三，在这些特征向量上，DiT会逐步引入噪声，通过增加噪声的扩散过程，将原始数据逐步转换为噪声数据；第四，训练Diffusion Transformer模型，逆转噪声增加的过程，通过噪声数据恢复出原始数据；第五，在训练完成后，通过向模型输入一些特定的或随机生成的噪声数据，经模型处理后即可生成新的图像或视频。

本文，我们具体着眼于DiT架构在音乐生成中的具体应用，在了解DiT架构的基本工作流程后，可以总结出以下几个关键组件，即音频编码器、条件编码器、核心DiT模块以及音频解码器。在整个工作过程中，首先运行音频编码器，将原始音频信号转换为潜在表示；然后通过条件编码器解析接收到的条件控制信息，例如风格、描述性的控制信息等；接着，让余下的数据在潜在空间中通过核心DiT模块完成去噪；最后通过音频解码器对噪声数据进行逆向处理，最终还原为音频信号。本质上，这种架构的工作模式在相对低维的潜在空间中完成了复杂的音乐生成过程，计算效率及资源利用率均有极大提升。

2025年，一款名为AudioX的开源项目应运而生，该项目致力于构建从全模态到音频生成的统一框架。这个开源项目运用的核心技术为Diffusion Transformer技术，可将文本、视频、图像等多种模态的输入转换为高质量的音频。作为AudioX的核心技术，DiT模型展现了它强大的音乐生成能力，这使得AudioX不仅具备生成通用音频的能力，还拥有音乐生成、自然语言控制等特性。

人工智能音乐疗愈空间

市场上主流人工智能音乐生成模型

1.Suno

Suno是当前非常具有影响力的人工智能音乐生成平台，最新一代的Suno V5于2025年9月23日正式发布。Suno自诞生以来便广受关注，也受到大量用户的认可，在2025年年中，Suno可统计的用户已超过1200万，具有非常可观的用户量。

Suno V5在功能和效果上实现了质的飞跃，早已不是单一的音乐生成工具，而是集作曲、编曲、混音、编辑于一体的专业创作平台，即使是刚接触音乐不久的人，也可以通过该平台得到自己心仪的音乐作品。从Suno V5的最新功能中，我们也能获得一定的启发。

Suno V5给用户最大的感觉便是精度的提升，这种提升不仅仅体现在音乐风格、音质效果上，更是让人在制作音乐的过程中，感受到“全流程”的掌控力。Suno V5最核心的功能在于，支持“有音轨垫入”与“无音轨垫入”双重创作模式，这种模式允许用户仅提供关键词，由人工智能生成全新的音乐片段；也允许用户提供音轨，让人工智能在此基础上进行创作。诸多精细化的可调节参数，例如“Vocal gender”，可供创作者选择男女声部的演唱技巧；“Weirdness”是极其有趣的参数，直译为“怪异值”。该参数的高低决定了它与主流风格的接近程度——也就是说怪异值越低，生成的音乐风格更趋于主流，反之则偏离主流风格，给创作者相当大的创作空间。核心参数还有“Style Influence”，称为风格遵循度，决定了人工智能对于提示词的遵循程度。该数值越低，给予人工智能的创作空间也越丰富。

精度的提升还体现在提示词的细化上，不同于早期版本的人工智能音乐生成系统，Suno V5已经允许全局风格提示词以及分段指令提示词的使用。用户可以以整首音乐的核心特征为参照，描述包括曲风、配器、音色和演唱技巧等宏观的创作蓝图。通过分段指令提示词，用户可以将一首歌曲拆分为基本的段落（例如前奏、间奏、尾奏、主歌、副歌等）进行单独要求。例如，创作者可以告诉系统，主歌部分需要钢琴的柱式和弦进行点缀，配器上轻柔、干净；桥段部分逐步推进；副歌时加入大弦乐烘托歌曲的气氛；尾声则呈现逐渐缥缈的乐曲风格。系统可以精细地完成每一个区块的工作，使整首音乐具有分明的层次起伏。针对不是非常专业的用户，该系统还提供LLM大语言模型辅助用户生成提示词，用户只需提供乐手、乐曲名的参考，大语言模型便会生成对应提示词提供辅助，真正实现一键式音乐创作。

2.Udio

作为Suno的最大竞争对手之一，Udio同样是在人工智能技术发展浪潮之巅诞生的音乐生成平台。虽然两者是竞争关系，但它们的目的都是一致的，即致力于简化创作难度，为用户打破创作壁垒。

Udio的功能和Suno较为相似，但它的精髓在于续写（Extend）功能。Udio的创作流程如下：根据用户提供的提示词、歌词等文本信息，系统会先生成一段半分钟的音频片段，随后的续写部分，便是Udio特有流程——在该模型系统中，用户可以选择前续（Extend Before）和后续（Extend After）两种模式；在前续音频片段生成完成后，系统允许用户补充续写提示词。例如，用户可以在续写中输入诸如“我需要更加激烈的鼓点、我需要大弦乐的铺垫”等要求，以此增强歌曲的层次感。续写并非单一过程，而是可以反复操作的。此外，用户还可以通过修复功能，对生成内容中不满意的部分进行细节精修。这也让Udio受到了一些追求完美的创作者的青睐。

上海音乐学院人工智能音乐疗愈重点实验室的创新研究

笔者作为上海音乐学院人工智能音乐疗愈重点实验室的一员，在实验室主任刘灏教授的带领下，参与了诸多人工智能与艺术科技的探索实践。实验室核心研究方向便是探索科技与艺术的完美交融。其中人工智能音乐疗愈空间是实验室主要研究成果之一，笔者也有幸参与了该项目研究。

“音乐生态疗愈空间”本身是一处集合生态声学设计、智能生理检测以及多感官沉浸体验于一体的移动式疗愈空间。该舱体具备五大核心功能，分别为智能压力评估、多模态情绪识别、可塑性训练音乐大模型、声景融合疗愈模式及跨学科科研协作平台。

其中，可塑性训练音乐大模型也运用了音乐生成技术，通过捕捉用户的传感状态，实时生成用户所需要的音乐频率，开展音乐疗愈工作。与前文提及的Suno、Udio音乐生成模式不同，该疗愈空间采用“根据用户身体状态、脑电波需求被动生成音乐”的模式，更注重贴合用户的实际体验与核心需求。

这也是人工智能技术在音乐领域的一项全新尝试，音乐生成不仅仅包括歌曲、音频片段、音效环境，甚至音频声波也是可选项之一。音乐生成依托的也不仅仅是文字化的提示词，也可以通过用户的脑电、生理状态等实时生成。

当然，音乐生成不仅仅是单纯的“生成”过程，更重要的是其中蕴含的“交互”理念。实验室打造的作品《智能之境：琴箫合奏疗愈音乐与实时脑电反馈的AI交互作品》，将民族器乐、实时演唱以及实时脑电（EEG）监测技术深度融合，构建了动态反馈的“声音——意识”交互系统。该项目极具创新性，将脑电与音乐生成有机地结合在一起，也是对未来音乐形态的一次大胆尝试。

实验室也致力于探索声场与人工智能之间的交互，不局限于音乐的形态，未来还将推出更多令人惊叹的艺术与科技融合作品。

总结：人工智能音乐生成技术的未来

无论是Suno还是Udio，都是目前市面上强大的人工智能音乐生成系统，是人工智能技术带给音乐人，尤其是音乐爱好者的一份美好礼物。我们要理性地看待人工智能与音乐艺术之间的关系。

不可否认的是，音乐生成技术的日益成熟，使得创作的边界日益消融，越来越多的人可以参与到音乐艺术的创作中，体验音乐艺术的奇妙。笔者身为音乐创作者，也切实感受到了人工智能技术给音乐行业带来的压力。

目前人工智能生成技术的水准已达到令人惊叹的高度。许多短视频平台、自媒体平台已涌现出大量人工智能技术生成的音视频产物，其生成的内容在逻辑连贯性与内容完整性上均表现突出，水准惊人。

笔者认为：人工智能技术的出现，对于艺术的发展具有正向的推动作用，但是作为艺术家，应该将人工智能技术作为辅助创作的工具，不应该过分排斥，也不应该过分依赖。音乐与科技是相辅相成的，两者协同发展，才能为人类艺术的进一步发展开辟更新的天地。笔者也衷心希望，人工智能与艺术能够和谐共进，在未来带给人类更多惊叹与奇迹。

作者：上海音乐学院助理研究员，上海市晨光学者

责任编辑：吴凌云