不是，怎么有模型叫“老婆们”，还能视频通话啊？

差评XPIN

2026-04-17 00:09 ·浙江 ·知否计划特邀作者·《差评》官方网易号

“2030 年，打造出全球十亿人愿意生活在其中的虚拟世界。”

这是三年前米哈游喊出的口号，世超当初听着也是小小激动了一把，但近几年好像都没啥动静了，也就觉得这不过是给咱二次元画的饼罢了。。。

但所谓“ 技术宅拯救世界 ”，米哈游在中二这方面从不让人失望，前些天一个叫“LPM-1.0”的模型新鲜出炉，让咱跟这张饼的距离又近了点儿。

LPM-1.0 （Large Performance Model）即大表演模型，由人工智能公司 Anuttacon 训练，背后正是米哈游联合创始人蔡浩宇。

而在这次的视频模型之前，他们还推出过二次元风格非常浓郁的聊天模型“AnunNeko”，以及 AI 驱动的游戏“Whispers from the Star”。

这游戏隔壁的小发还玩儿过：，挺特殊的。

从这些产品的定位也能看出，Anuttacon 的初衷就是做 AI + 游戏的一些前沿尝试。

所以这次的 LPM-1.0 也不例外，你看名字，LPM 不就是“老婆们”么，这模型就是朝着把你的二次元老婆们复活来的。

蔡喵就是蔡浩宇

当然，玩笑归玩笑，模型能力从官网放出的展示来看，可是一点儿不胡闹，其中让人印象最深的就是这非常丝滑的实时对话了。

演示里根据之前米家的虚拟角色形象“鹿鸣”构建了个真人版，可以在网页中和她实时对话。

这里切换语言到中文后，让她推荐二次元游戏，可以看到回答的效果非常自然，虽然播音腔浓厚了点，但声音和表情的对应是融洽的。

而且不同于一般的视频模型，这里的展示是有一种互动性，能持续进行的。

这就是它的特殊之处了，LPM-1.0 的核心定位不是一次性的生成，而是持续性的表演，让对话变得具有交互感。

所以与其说它是视频生成模型，倒不如说它更像是之前数字人技术的升级版。

数字人其实大伙儿也不陌生，只要点开过上面这种直播间，里面的主播就是数字人，输入指令，你甚至能让主播“喵”一百声。。。

别看上面这位口型都对不准，背后烧的 Token 可不少。

为了支撑她跟观众实时互动，后台需要一个低延迟语音对话 Agent，加上一套实时说话的人脸生成系统，还得再套一层直播推流和运营控制台，非常繁琐。

而这次的 LPM-1.0 直接将前两个部分整合了一下，直播互动更方便了。

官方也直接告诉大伙儿，模型主打的就是无限的视频生成时长，只要你想，这对话能一直进行下去。。。

既然是跟数字人技术对比，正好之前也有快手的 KlingAvatar-2.0 和字节的 OminiHuman 15，都是同类的生成模型，放在一起就能看出 LPM-1.0 的质量怎么样了。

这次的 LPM 模型分了两种，一种是离线的 Base 模型，和普通的视频模型一样，给定提示词去生成视频；另一种就是 Online 模型，就是最开始演示的那样，具有交互感，实时生成的模型了。

这里先拿离线的 Base 基础模型来举例，生成 720p 分辨率的仿直播视频，别的不说，就“活人感”这方面还是很出色的。

在对比视频里，最左边的 LPM-1.0 跟另外几个模型相比，生成时间更长，持续性以及面部表情都更加自然。

一方面，人物能够根据说的话配合一些肢体动作；另一方面，跟音频的配合也更紧密，不会像其他模型那样被背景音乐干扰，去跟不属于角色的声音对嘴型。

不过美中不足的是，当切换到实时生成的 Online 模型，还原真实直播场景时，效果就打了个折。

比如下面官方给的 Demo，就只有 480p 的分辨率，虽然看着还行，但确实不如离线模型生成的稳定，动作大点就容易看出 AI 感。

再来看模型刻在名字里的表演，放到生成的视频里，就是看人物的表情动作和情绪变化对不对得上。

毕竟咱也刷到过那种用力过猛的，或者动作肌无力的，只要表演的度把握不好，就容易出现伪人感。

看 Demo 对多种情绪的展示，绝望愤怒等情绪中规中矩，但一些波动比较小的情绪，像悲伤或者沮丧，面部细节还挺多的，表现的效果也非常自然。

不过，表演这块儿人类还是很挑剔的，再加上萝卜青菜各有所爱，所以到底哪种程度刚刚好咱也说不太准儿。

但要是后面能给一些更细的，更可控的参数选项，这发挥空间就更大了。

那这么好玩儿的模型，Anuttacon 是怎么搓出来的呢？

其实这得归功于 LPM 新的流式架构了，这架构非常灵活，而参数大概在 17B（170 亿）左右，原生支持文本，语音和图片输入，原理上后期也能拓展到视频输入。

至于模型最重要的视觉能力，Anuttacon 则走了个捷径，训练时是在阿里的开源模型 Wan 2.1-I2V 上的，效果拔群。

这也是开源的好处，节省出这些造轮子的功夫，也好给咱带来更多好活儿。

除此之外，模型还原生支持“全双工”的自然对话，就是既有“听”的反馈，又有“说”的表演。

这依赖于新引入的交替式双音频注入机制：模型内部的偶数层处理说话音频，奇数层处理倾听音频。

说大白话就是把对话音频拆成两部分处理，一部分负责体现聆听，另一部分负责表演说话，将交互拆成不同内容进行处理，更细了，也就更自然了。

当然，模型输出的形式还是视频，所以和视频模型一样，怎么控制人物主体的一致性还是必须要解决的难题。

从模型的技术报告里能看出，他们的方案是不依赖单张图片，而是拿 1 张全局图、1-4 个身体多视角图、1-8 种面部表情图综合起来控制。

除了加多参考图，模型内部还特意对表情图和视角图进行了特征区分，换句话说就是模型在生成视频时，能认出特征的不同类型，不容易因为特征冲突而陷入混乱。

而在这些基础上，还有一堆注意力细节的调控，以及特征锚点的设置，总之就是拼尽全力去确保人物做动作时不变形。

当然，由于这模型演示的场景人物动作的幅度都比较小，样本不多，所以其他情况的效果还有待实测，只能看后续有没有其他模型按这个思路试试了。

那对话有了，人物也一致了，延迟是怎么降下来的呢？

其实也不复杂，就是先拿主干模型生成粗略的草稿，再拿细化模型填补面部和动作细节，分工明确，流水线式生成。

这么一来，推理步骤被压缩成了 2+1，一共才三步，再加上一些流式编码和并发执行技术，整个对话过程的延迟被大幅降低。

在技术报告里，他们还透露了具体的架构，就是用主干（Backbone）加细化（Refiner）的方式将原来庞大的扩散模型转换成了简单的自回归网络。

而有了这些技术的助力，也就能支撑 LPM-1.0 去无限时长的实时（低延迟）对话了。

当然，以上这些咱也只是云了一波，因为这次的发布并不是模型或者产品的发布，只是技术和样例的展示。

换句话说，虽然一些技术思路以及视频的效果都挺亮眼，但咱还用不到，而且到手里用起来具体什么样也是未知。

不过就上面展示的效果来看，喜欢看直播的家人们有福了，因为以后屏幕前看起来形形色色的主播，后面坐着的可能连人都不是了。。。

撰文：风华

编辑：早起 & 江江 & 面线

美编：焕妍

图片、资料来源：

LPM技术报告，NVIDIA官网，X，小红书，知乎，网络

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴