Lumine 能像人类一样,通过视觉理解游戏画面、实时推理并执行键鼠操作。它每秒能分析五次游戏画面,并以 30Hz 的速度输出精准动作,甚至会根据需要自主决定何时“动脑思考”。在《原神》中,Lumine 成功以接近人类的效率通关了长达五小时的蒙德主线任务,还能根据自然语言指令完成探索、战斗、解谜、与 NPC 对话等复杂操作。不仅如此,它在《鸣潮》和《崩坏:星穹铁道》中也能零训练直接上手,完成长达数小时的任务,展示出惊人的跨游戏泛化能力。(链接在文章底部)
Lumine 不只是一个“能玩游戏的AI”,更是一整套开放式研发方案,涵盖从环境选择、数据收集、模型设计到训练与推理优化的完整流程。更令人惊讶的是,它仅依靠2400小时游戏数据和64块H100显卡,就能让一个开源视觉语言模型进化为具备实时理解和决策能力的强大智能体,全程不需要修改模型结构或损失函数。
01 技术原理
Lumine 采用类人交互范式,将感知、思考与行动端到端统一整合,基于视觉-语言模型驱动。它以5Hz处理原始图像,并以30Hz生成精确的键鼠操作,仅在必要时进行思考。
Lumine 先用1731小时的人类游戏数据预训练,学会根据游戏画面输出键鼠操作;再用200小时的指令跟随数据,将语言和操作对应;最后用15小时的推理数据,让模型具备灵活思考能力。
最终得到的模型不仅能够完成持续数小时的任务,还能遵循多样化的指令,在 3D 开放世界探索和 2D 图形界面操作中执行涵盖收集、战斗、解谜以及与 NPC 交互等广泛类型的任务。而《原神》丰富多样的游戏玩法正好为这些能力在不同类型的活动中展现提供了理想的舞台。
得益于大规模的预训练,Lumine 掌握了关键的战斗技能,能够动态追踪敌人、精准地用弓箭击中远处目标,流畅地切换角色进行连招攻击,并高效地寻找并开启战斗后解锁的宝箱。
除了日常战斗,Lumine 还展现出对Boss机制较强的理解和应对能力,能够躲避Boss的攻击并且使用对应的策略击败Boss。
Lumine 能够应对游戏中的各种挑战与解谜,这通常需要对游戏机制有深入的理解、出色的空间感知能力,以及精确的底层操作控制。
Lumine 展现出可靠的指令执行能力,能够在多人环境中稳定地与指定的 NPC 进行互动,为完成长期任务奠定了坚实的基础。
大世界探索之外,Lumine同时还可以像人一样通过鼠标相对移动的方式进行可靠的GUI操作,实现了2D界面和3D世界的统一,这对于通用智能体来说至关重要。(为角色替换武器)
同时Lumine展现出来了强大的上下文学习能力,在指令中提供任务的先验信息或者更细的分解步骤的话,Lumine可以完成一系列之前不能完成的复杂任务。(切换角色为凯亚,不断释放E技能冻结水面,以收集前方浮在水面上的风神瞳)
https://www.lumine-ai.org/Lumine.pdf欢迎关注交流~,带你学习AI,了解AI
热门跟贴