从文生图,到文生视频,生成式 AI 给了我们一个又一个的惊喜或是惊吓,显著降低了包括图文、音频、视频在内的各种内容形式的创作门槛,现在这一趋势延伸到了音乐上。

最近文生音乐工具 Suno AI 爆火了一把, 只需要输入简单的 Prompt ,就可以得到包括歌词、人声和配乐在内的一首完整的歌曲,甚至可以选择你想要的曲风。Suno 的音乐创作由原生 AI 模型生成,而在歌词和歌曲名方面,使用的是 OpenAI 的 ChatGPT。

比如这样的:

“原来写歌这么容易,我们都被音乐家给骗了!” 这是 Suno 发布 V3 版本之后的一个用户评论。

Suno 在印地语中意为“倾听”,这家公司成立于 2022 年,总部位于马萨诸塞州剑桥,目前团队只有 12 人,正计划扩张。联合创始人 Shulman、Freyberg、Georg Kucsko 和 Martin Camacho 都是机器学习领域的专家,此前四人在剑桥的另一家公司 Kensho Technologies 工作,该公司专门开发从复杂和非结构化数据中提取见解的解决方案,尤其在财务背景下,如财报电话会议等,Suno 的四位创始人在 Kensho 开发了一种转录技术,用于上市公司的财报电话。

在创立 Suno 之后,团队最初的想法包括助听器、以及通过音频分析找出机械故障等方向。2023 年,Suno 发布了 Bark ,这是一个基于 Transformer 的开源文本转语音模型,可以生成非常逼真的多语言语音以及其他音频,包括音乐、背景噪音和简单的音效,如笑声、叹息和哭泣。

在与 Bark 的用户交流中,他们发现用户真正想要的是一个音乐生成器。于是他们基于 Bark 开发了一个名为 Chirp 的音乐生成模型,于 2023 年 9 月发布了 Suno Chirp V1,并开始邀请用户加入 Discord 频道体验文字生成音乐。2023 年 12 月, Suno 推出了网页版本应用,同时 Suno 与微软合作,用户可通过插件的形式在 Copilot 使用 Suno。

Suno 采用的是与大型语言模型(比如ChatGPT)相同的通用方法,但处理音频比处理文字更困难,高质量音频的采样率通常是 44kHz 或 48Hz,也就是每秒 48000 个Token,这也就是为什么生成式音乐不如文字、图像等领域发展的那么快的原因之一。

关于 Suno 是如何训练自己的模型的,或者确切地训练了什么,目前公开的细节有限,实际训练过程可能包含更多专有的技术和方法。创始人只透露了 V3 能生成令人信服的声音,部分来自于它从语音录音以及音乐中学习。这种保密性也引发了一个问题,即它所训练的数据来源不为人知。去年,美国音乐产业已经向监管机构表达了他们担心 AI 模型使用有版权歌曲进行训练,然后创作出深度模仿的歌曲,而 OpenAI 已经因为版权纠纷接连吃了不少官司。

Suno 官网上设有一个常见问题解答页面,解释了所有权和版权等话题,以及商业使用的限制。其中注明了只有付费订阅 Suno 才能将生成的内容用于商业目的,也只有付费用户才拥有生成歌曲的所有权,最便宜的 Pro 版收费每月 10 美元。

Suno 会屏蔽掉包含其他艺术家歌曲、歌词的提示词,也会拒绝要求“以某艺术家的风格”生成歌曲提示词,据报道,这家 AI 初创公司还在与音乐厂牌进行沟通。此外,Suno 还使用了专有水印技术,能够检测出歌曲是否由 Suno 创作,保护原创作品,防止滥用。

大厂都在“卷”生成式音乐

从保罗·麦卡特尼借助 AI 技术提取已故成员约翰·列侬的声音,完成披头士乐队的遗作《Now And Then》,到由 AI 制作的热门翻唱曲目 "Heart on My Sleeve" 火出圈,让音乐界意识到 AI 制作的内容不仅可以存在,而且可以做得非常出色。

产业界也一直在探索人工智能音乐可能的发展方向,在上一波 AI 创业浪潮当中,就先后出现出了多家 AI 生成音乐相关的项目。比如法国的 Aiva Technologies,旨在通过 AI 为电影、电子游戏、商业广告等内容创作情感化配乐。

OpenAI 早在 2019 年就推出了 AI 音乐模型 MuseNet,MuseNet 通过使用数十万个MIDI音乐来进行学习,采用了与 GPT-2 相同的非监督学习方法。不过,MuseNet 不是通过文本描述来生成音乐,而是通过指定音乐家、音乐类型和参考歌曲的方式,OpenAI 的主要目的是展示在 AI 研究方面取得的成果,MuseNet 从 2022 年 12 月 12 日起已经无法访问。

谷歌早在 2023 年发布了音乐大模型 MusicLM,可以根据用户输入的文本要求,自动生成音乐作品,但只能生成 20 秒。

2023 年 6 月,Meta 开源音乐生成模型 MusicGen,这是一个可以将文本提示转化为高质量样本的音乐生成模型,与 Llama 2 一样,可免费用于商业用途,催生了一批新 AI 生成音乐工具的诞生。

但一直等到 Suno V3 版本的发布,才出现了第一个明星产品。

暂时还 无法让音乐人“下岗”

Suno V3 的出现给了我们一种每个人都能成为音乐人的错觉,哪怕就 2 分钟,也引发了 AI 冲击音乐产业的讨论。个人感受上,Suno 目前的作用更接近于满足用户面向自我的表达欲,而非面向公众创作欲,用于在朋友圈刷存在感。类似于你会在唱吧翻唱歌曲,也许还会把唱的不错的分享给好友或者朋友圈,但你不能靠它吃饭,更不会指望它能成为一代人的集体记忆。

Suno 生成的音乐还远远谈不上完美,可能也就勉强平替无版权音乐库,写一首能听的歌是一回事,写一首好听的歌是另一回事。当然,技术会进步,或许等到 Suno 能生成一首你愿意单曲循环的歌曲的时候,才是谈论音乐人有没有必要存在的时候。

Sam Altman 认为 5 年、10 年后编程的形式会改变,但不会消失,而且会有更多需求,有些人甚至可能会完全用自然语言编程。音乐创作也许会发生类似的事情,更多的人可以借助 AI 进行创作,学习乐器、乐理可能都不再是必选项,这增加了个人表达的可能性,我们可以期待越来越多的卧室音乐人的出现,在他们当中,也许会诞生新的泰勒·斯威夫特。

Suno 的投资人认为 Suno 是一种功能强大、易于使用的乐器,相信它能像智能手机和 Instagram 将摄影民主化那样,将音乐创作带给每一个人。只不过音乐产业的核心问题也许不是供给不够,我们需要的是更多的歌曲吗?问题在于大家都不再听歌了,尤其是新歌,短视频背景音乐成为音乐的主要价值,但这又是另外一个话题了。

最后提供一个技术决定论视角的段子: