腾讯游戏用一只“猫”，直接AI生成3D游戏原型？|unreal|物理引擎|腾讯游戏|虚幻引擎

用AI把“页游”转换为虚幻大作。

整理/秋秋&电了个教

今年的GDC（游戏开发者大会）上，腾讯游戏带来了20多场涵盖游戏开发、AI工具、工程技术等领域的精彩分享。

其中，光子工作室群资深工程师（principal engineer） Yang Hao 带来了一场题为“AI驱动的3D游戏原型开发：引擎集成实践（AI-Driven 3D Game Prototyping with Engine Integration）”的技术演讲。

传统游戏原型制作往往面临较高的技术壁垒，而目前市面上的AI生成工具多局限于Web端，难以与虚幻（Unreal）等专业3D引擎整合。

本次演讲分享了腾讯游戏如何通过一套“C.A.T.原则”，让AI理解3D空间数据，实现从Web端2D原型到引擎内3D高保真原型的无缝转换，以及如何在生产管线中利用Agent（智能体）进行自动化测试与Bug修复。

以下为经过整理的演讲实录，内容有所删减调整：

游戏原型制作的瓶颈

大家早上好，我是来自光子工作室群的资深工程师 Yang Hao。在过去的十多年里，我曾负责过千万级DAU休闲游戏的后端架构，也主导过无缝开放世界底层服务器系统的开发。

而在过去的三年里，我将研究重心转向了AI、游戏引擎以及AIGC的工业化落地。

今天，我想和大家探讨如何使用AI和虚幻引擎（Unreal Engine）来构建游戏原型（Prototypes）。虽然我以Unreal为例，但这套思路同样适用于其他引擎。

让我们先来谈谈原型制作（Prototyping）。

传统上，原型制作是游戏开发早期必不可少的一环。一个可运行的原型不仅能测试核心玩法，也是我们用来跨国、跨语言团队间沟通的工具。

然而，原型制作目前存在明显的技术壁垒（Technical skill barrier）——设计师通常需要掌握编程语言才能构建原型，这导致迭代循环非常缓慢，严重限制了我们验证创意的数量。

目前市面上已经有一些基于Web的AI工具，能快速生成简单的2D概念原型。但它们最大的局限在于缺乏引擎整合。

Web对AI很友好，但AI对3D游戏引擎却举步维艰。

因为大多数引擎工具都是GUI优先（GUI-first）的。它们拥有对人类极其友好的图形界面（如蓝图节点、连线），但这些界面并非为AI设计。AI更擅长处理API或对Token友好的代码结构。

对于人类来说，连接节点能立刻看到结果；但对于AI来说，这些GUI界面基本上就是“一堵像素墙”。

那么，我们该如何打破这堵墙，结合Web的便捷性与引擎的强大表现力？

从Web到引擎的跨越

在我们的工作流管线（Pipeline）中，一切从设计师的创意开始。

AI首先会生成一个基于Web的2D原型，团队可以立即游玩、测试并导入自定义资产。在Web端迭代完善后，系统会将其自动转换为准备好的3D引擎项目，设计师可以在引擎内继续进行高级迭代，最终得到一个可用于生产环境的项目起点。

对此，我们测试了三款游戏。

第一款是《8球（8-Ball Pool）》游戏。我们选择它是因为它有着非常明确的物理规则和几何规则。虽然它主要是由物理驱动的，并不非常考验AI写代码的能力，但这非常适合用来测试我们的工具，去验证它在没有太多人工干预的情况下能否处理好基础的几何计算。

第二款游戏是一个俯视角自动射击游戏（Top-down auto-shooter）。这款游戏里的大部分功能都是由单一的Prompt（提示词）生成的。为了创建这款游戏，我们要求AI自己做研究，并在一次生成中尽可能多地完成游戏内容。

第一个Prompt大约花了40分钟来处理。但它一次性完成了最终版本里大约70%的功能。当然，还是存在一些Bug需要解决，比如还有4个功能需要我们去手动调整和开发。

最后一款是一个第一人称（FPS）Boss战游戏。在这里，我们的目标是创建多种不同的游戏机制（Gameplay mechanics）。我们添加了不同层级的角色，每个角色都有自己的身份，并且我们还为Boss制作了多种攻击模式（Patterns）和不同的武器。

现在，让我们更深入地看看这个工具。它是如何从Web引擎进行原型制作的？

左边看到的是在Web浏览器中运行的2D台球游戏，里面有光标、物理反馈，这些都能毫不费力地构建出来。而在右边，你会看到它的3D版本，运行在Unreal（虚幻引擎）中。

为了实现这种跨平台的飞跃，我们要求AI遵循特定的约束，我们将其总结为“C.A.T.原则”：

它们非常容易记住，只要想一想CAT（猫）。这只猫是真实的，不是AI生成的，它是我的一个同事养的。

为了彻底打破“像素墙”，我们基于腾讯在GitHub上的一个开源引擎插件，允许在Unreal和Unity引擎中直接运行JavaScript或TypeScript代码。

你不需要写图形化的蓝图代码，只需用对AI极度友好的TypeScript去调用引擎函数即可。

UI、渲染与核心逻辑的映射

基于Token友好的基础，我们构建了独立于特定引擎的纯逻辑代码架构。通过“适配器层”，我们将项目拆分为独立模块，确保核心逻辑独立且复用率最大化。

接下来，我们逐一拆解几个核心模块：

将Web UI转化为游戏内UI，主要有两种方式。第一种是直接在引擎中嵌入网页（Unreal内置了Web Browser Widget），通过进程间通信同步数据，这种方式能实现像素级的完美还原。

但在实际操作中，对于像“血条”这样需要跟随角色动态移动的UI，浏览器的性能开销是不可接受的。

因此，我们采用了第二种方式：让AI动态解析DOM（文档对象模型）以抓取样式和布局，再参照解析结果在UMG（Unreal Motion Graphics）中组建对应的UI控件树——虽然牺牲了一点设计上的绝对一致性，但换来了极佳的性能。

渲染的核心难题是：如何让大语言模型（LLM）理解3D空间？这对人类很直观，对AI却很难。我们通过三种方式来解码空间数据：

知识（Knowledge）：将游戏规则（如台球桌的尺寸、球的运动轨迹）作为常识嵌入模型。
资产元数据（Asset Metadata）：将所有资产的边界、包围盒和碰撞体数据提供给AI。
设计元数据（Design Metadata）：设计师在关卡中使用标记工具（Markers）放置特定区域，这些标记带有变换和层级关系，成为AI理解空间的锚点。

结合这三者，AI就能计算出所有坐标并完成正确的3D放置。