“2030 年,打造出全球十亿人愿意生活在其中的虚拟世界。”
这是三年前米哈游喊出的口号,世超当初听着也是小小激动了一把,但近几年好像都没啥动静了,也就觉得这不过是给咱二次元画的饼罢了。。。
但所谓“ 技术宅拯救世界 ”,米哈游在中二这方面从不让人失望,前些天一个叫“LPM-1.0”的模型新鲜出炉,让咱跟这张饼的距离又近了点儿。
LPM-1.0 (Large Performance Model)即大表演模型,由人工智能公司 Anuttacon 训练,背后正是米哈游联合创始人蔡浩宇。
而在这次的视频模型之前,他们还推出过二次元风格非常浓郁的聊天模型“AnunNeko”,以及 AI 驱动的游戏“Whispers from the Star”。
这游戏隔壁的小发还玩儿过:,挺特殊的。
从这些产品的定位也能看出,Anuttacon 的初衷就是做 AI + 游戏的一些前沿尝试。
所以这次的 LPM-1.0 也不例外,你看名字,LPM 不就是“老婆们”么,这模型就是朝着把你的二次元老婆们复活来的。
蔡喵就是蔡浩宇
当然,玩笑归玩笑,模型能力从官网放出的展示来看,可是一点儿不胡闹,其中让人印象最深的就是这非常丝滑的实时对话了。
演示里根据之前米家的虚拟角色形象“鹿鸣”构建了个真人版,可以在网页中和她实时对话。
这里切换语言到中文后,让她推荐二次元游戏,可以看到回答的效果非常自然,虽然播音腔浓厚了点,但声音和表情的对应是融洽的。
而且不同于一般的视频模型,这里的展示是有一种互动性,能持续进行的。
这就是它的特殊之处了,LPM-1.0 的核心定位不是一次性的生成,而是持续性的表演,让对话变得具有交互感。
所以与其说它是视频生成模型,倒不如说它更像是之前数字人技术的升级版。
数字人其实大伙儿也不陌生,只要点开过上面这种直播间,里面的主播就是数字人,输入指令,你甚至能让主播“喵”一百声。。。
别看上面这位口型都对不准,背后烧的 Token 可不少。
为了支撑她跟观众实时互动,后台需要一个低延迟语音对话 Agent,加上一套实时说话的人脸生成系统,还得再套一层直播推流和运营控制台,非常繁琐。
而这次的 LPM-1.0 直接将前两个部分整合了一下,直播互动更方便了。
官方也直接告诉大伙儿,模型主打的就是无限的视频生成时长,只要你想,这对话能一直进行下去。。。
既然是跟数字人技术对比,正好之前也有快手的 KlingAvatar-2.0 和字节的 OminiHuman 15,都是同类的生成模型,放在一起就能看出 LPM-1.0 的质量怎么样了。
这次的 LPM 模型分了两种,一种是离线的 Base 模型,和普通的视频模型一样,给定提示词去生成视频;另一种就是 Online 模型,就是最开始演示的那样,具有交互感,实时生成的模型了。
这里先拿离线的 Base 基础模型来举例,生成 720p 分辨率的仿直播视频,别的不说,就“活人感”这方面还是很出色的。
在对比视频里,最左边的 LPM-1.0 跟另外几个模型相比,生成时间更长,持续性以及面部表情都更加自然。
一方面,人物能够根据说的话配合一些肢体动作;另一方面,跟音频的配合也更紧密,不会像其他模型那样被背景音乐干扰,去跟不属于角色的声音对嘴型。
不过美中不足的是,当切换到实时生成的 Online 模型,还原真实直播场景时,效果就打了个折。
比如下面官方给的 Demo,就只有 480p 的分辨率,虽然看着还行,但确实不如离线模型生成的稳定,动作大点就容易看出 AI 感。
再来看模型刻在名字里的表演,放到生成的视频里,就是看人物的表情动作和情绪变化对不对得上。
毕竟咱也刷到过那种用力过猛的,或者动作肌无力的,只要表演的度把握不好,就容易出现伪人感。
看 Demo 对多种情绪的展示,绝望愤怒等情绪中规中矩,但一些波动比较小的情绪,像悲伤或者沮丧,面部细节还挺多的,表现的效果也非常自然。
不过,表演这块儿人类还是很挑剔的,再加上萝卜青菜各有所爱,所以到底哪种程度刚刚好咱也说不太准儿。
但要是后面能给一些更细的,更可控的参数选项,这发挥空间就更大了。
那这么好玩儿的模型,Anuttacon 是怎么搓出来的呢?
其实这得归功于 LPM 新的流式架构了,这架构非常灵活,而参数大概在 17B(170 亿)左右,原生支持文本,语音和图片输入,原理上后期也能拓展到视频输入。
至于模型最重要的视觉能力,Anuttacon 则走了个捷径,训练时是在阿里的开源模型 Wan 2.1-I2V 上的,效果拔群。
这也是开源的好处,节省出这些造轮子的功夫,也好给咱带来更多好活儿。
除此之外,模型还原生支持“全双工”的自然对话,就是既有“听”的反馈,又有“说”的表演。
这依赖于新引入的交替式双音频注入机制:模型内部的偶数层处理说话音频,奇数层处理倾听音频。
说大白话就是把对话音频拆成两部分处理,一部分负责体现聆听,另一部分负责表演说话,将交互拆成不同内容进行处理,更细了,也就更自然了。
当然,模型输出的形式还是视频,所以和视频模型一样,怎么控制人物主体的一致性还是必须要解决的难题。
从模型的技术报告里能看出,他们的方案是不依赖单张图片,而是拿 1 张全局图、1-4 个身体多视角图、1-8 种面部表情图综合起来控制。
除了加多参考图,模型内部还特意对表情图和视角图进行了特征区分,换句话说就是模型在生成视频时,能认出特征的不同类型,不容易因为特征冲突而陷入混乱。
而在这些基础上,还有一堆注意力细节的调控,以及特征锚点的设置,总之就是拼尽全力去确保人物做动作时不变形。
当然,由于这模型演示的场景人物动作的幅度都比较小,样本不多,所以其他情况的效果还有待实测,只能看后续有没有其他模型按这个思路试试了。
那对话有了,人物也一致了,延迟是怎么降下来的呢?
其实也不复杂,就是先拿主干模型生成粗略的草稿,再拿细化模型填补面部和动作细节,分工明确,流水线式生成。
这么一来,推理步骤被压缩成了 2+1,一共才三步,再加上一些流式编码和并发执行技术,整个对话过程的延迟被大幅降低。
在技术报告里,他们还透露了具体的架构,就是用主干(Backbone)加细化(Refiner)的方式将原来庞大的扩散模型转换成了简单的自回归网络。
而有了这些技术的助力,也就能支撑 LPM-1.0 去无限时长的实时(低延迟)对话了。
当然,以上这些咱也只是云了一波,因为这次的发布并不是模型或者产品的发布,只是技术和样例的展示。
换句话说,虽然一些技术思路以及视频的效果都挺亮眼,但咱还用不到,而且到手里用起来具体什么样也是未知。
不过就上面展示的效果来看,喜欢看直播的家人们有福了,因为以后屏幕前看起来形形色色的主播,后面坐着的可能连人都不是了。。。
撰文:风华
编辑:早起 & 江江 & 面线
美编:焕妍
图片、资料来源:
LPM技术报告,NVIDIA官网,X,小红书,知乎,网络
热门跟贴