深度音乐生成全景：从音符到多层级表示

赛博兰博

2026-05-14 06:12 ·北京

音乐生成正从单一旋律走向全链条创作。最新综述梳理了这一领域的核心挑战：如何用AI同时驾驭音符、和弦、曲式结构等多层级表示。

技术路线已分化出三大流派。符号方法直接操作MIDI事件，可控性强但丢失声学细节；音频端到端模型能输出逼真波形，却难以精细编辑；混合架构试图折中，在潜空间做高层规划再解码为声音。

评估困境比生成本身更难解。客观指标如FID、IS分数与 human 听感常脱节，主观评测又成本高昂。研究者呼吁建立跨任务的标准化基准，而非各说各话。

未来方向指向可控性与长程结构。当前模型能写4小节动机，却难维持10分钟的交响叙事。多模态融合——让AI同时"读懂"乐谱、音频、演奏视频——或许是突破关键。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴