4月10日,MiniMax上线了新一代音乐生成模型Music 2.6。相比一年前AI音乐赛道刚爆发时的热闹,现在的关注点已经从“一天能写多少首歌”转向了“写出来的东西能不能真的拿来用”。
一个很现实的问题是,Suno和Udio生成的歌曲在旋律和歌词层面已经足够以假乱真,但放到专业监听环境里,低频部分往往显得发飘、浑浊,缺乏实体感。这在电子音乐、影视配乐和嘻哈制作中尤其致命。
Music 2.6的核心升级就围绕这一点展开。MiniMax在技术文档中提到,新模型对生成架构中的频谱建模做了针对性调整,重点增强了贝斯与底鼓的下潜深度和瞬态响应。
简单说,就是让AI理解低音不止是需要响亮,还需要有力度和清晰的形态。实际测试中,一段提示词为“dark trap beat with heavy 808”的生成结果,鼓点的冲击力和衰减轮廓明显好于前代模型,与Suno v5.5默认生成的低音区相比,分离度更清晰,没有出现频段打架的情况。
另一个实用升级是BPM和调性锁定的执行精度提升。早期AI音乐生成的最大痛点是不可控,你输入C小调,出来的可能是随意转调的结果。
Music 2.6声称能忠实还原用户设定的主歌、副歌和过渡段落结构。这背后是对音乐语义理解的强化,不再只是按概率拼接音频片段,而是有了更明确的段落规划。
功能层面,新推出的Cover功能允许用户上传一段人声清唱,模型提取旋律轮廓后,可以重新编排成不同风格,比如把一段随口哼的旋律变成摇滚或者爵士。
这其实是在降低创作门槛,同时也给AI音乐增加了一点人味。毕竟完全由AI生成的内容,版权归属和市场接受度目前都存在争议,比如Suno与环球音乐的授权谈判就陷入了僵局。而基于用户原始输入的二次创作,在法律和情感上都更容易被接受。
MiniMax还开源了三个Music Skill组件,面向开发者生态开放。这让人联想到腾讯音乐的“未音”和昆仑万维的AI音乐出海策略,各家都在试图建立自己的工具链条,而不是只做一个生成按钮。
问题是,当低音、结构这些硬指标被逐步攻克后,AI音乐生成的下一个瓶颈会是什么。是更复杂的多声部编配,还是对歌词语义的情感表达。
或者我们根本不需要AI写出多么专业的音乐,只需要它足够诚实、好用就行。
热门跟贴