音乐生成正从单一旋律走向全链条创作。最新综述梳理了这一领域的核心挑战:如何用AI同时驾驭音符、和弦、曲式结构等多层级表示。
技术路线已分化出三大流派。符号方法直接操作MIDI事件,可控性强但丢失声学细节;音频端到端模型能输出逼真波形,却难以精细编辑;混合架构试图折中,在潜空间做高层规划再解码为声音。
打开网易新闻 查看精彩图片
评估困境比生成本身更难解。客观指标如FID、IS分数与 human 听感常脱节,主观评测又成本高昂。研究者呼吁建立跨任务的标准化基准,而非各说各话。
打开网易新闻 查看精彩图片
未来方向指向可控性与长程结构。当前模型能写4小节动机,却难维持10分钟的交响叙事。多模态融合——让AI同时"读懂"乐谱、音频、演奏视频——或许是突破关键。
打开网易新闻 查看精彩图片
热门跟贴