想要快速制作一款网页小游戏、交互式动画或是教学演示,却苦于复杂的代码逻辑与多元素交互调试?尽管如今大语言模型或 AI Agent 能帮我们写代码、搭建交互场景,但在处理多元素交互时往往极易出错,且纯文本的交互方式让人难以直观地调整视觉效果。
近日,来自香港浸会大学、香港科技大学、香港城市大学及深圳大学的研究团队共同提出了一款名为 MoGraphGPT 的创新系统。该系统结合了上下文感知模块化大模型与直观的图形化和精确化控制,让用户通过自然语言和简单的画布涂鸦,就能零代码快速搭建出逻辑复杂的 2D 交互场景。该研究成果最近已被计算机图形学与可视化领域顶级期刊 IEEE TVCG 录用。
论文作者包括:香港浸会大学传理学院互动媒体系助理教授叶卉,香港科技大学肖楚烽,香港城市大学创意媒体学院博士生冷佳业,以及深圳大学计算机与软件学院副教授徐鹏飞,通讯作者为香港科技大学艺术与机器创造力学部教授、代理系主任傅红波。该团队长期深耕于计算机图形学、人机交互和计算机视觉的交叉方向。
- 论文标题:MoGraphGPT: Creating Interactive Scenes Using Modular LLM and Graphical Control
- 作者:Hui Ye (HKBU/HKUST), Chufeng Xiao (HKUST), Jiaye Leng (CityU), Pengfei Xu (SZU), Hongbo Fu (HKUST)
- 录用期刊:IEEE Transactions on Visualization and Computer Graphics (TVCG) 2026
- 论文链接:https://ieeexplore.ieee.org/abstract/document/11410096
一、 研究背景:
LLM 生成交互场景的四大痛点
使用 LLM/Agent 可以直接生成 2D 交互场景(比如游戏,动画)或代码,在实际操作中,创作者通常会面临四个致命挑战:
1.代码质量堪忧:在处理多个元素(如主角、怪物、障碍物)的复杂交互逻辑时,LLM 容易生成不完整或存在错误的代码。
2.缺乏独立编辑性:LLM 的线性对话结构导致修改非常困难。比如只是想让平台移动,却可能不小心把原本静止的背景也带跑了。
3.图形控制缺失:仅靠文本很难精准描述空间信息。例如想让物体沿着特定的 S 型曲线运动,用文字描述极其痛苦且不准确。
4.精确控制极其繁琐:生成效果后,如果想微调速度、弹跳高度等参数,用户必须反复修改提示词进行盲盒式抽奖,极大地消耗耐心。
二、 核心技术:
MoGraphGPT 如何破局?
为了解决上述痛点,研究团队提出了 MoGraphGPT 的架构,带来了两项具有突破性的核心机制:
1. 上下文感知的 LLM 模块化
MoGraphGPT 摒弃了将所有需求丢给单一 LLM 的做法,采用了自顶向下的分层管理结构:
- 专属独立模块(Individual LLM Modules):场景中的每个元素(如 “猴子”、“香蕉”)都有自己专属的 LLM 会话。用户可以独立调整单一元素的行为,完全不用担心破坏其他元素的代码。
- 中心统筹模块(Central LLM Module):作为大管家,专门负责处理元素之间的交互(如 “猴子吃到香蕉加一分”)。各个独立模块会将其变量和函数精简为上下文(Context)供中心模块调用,实现了既独立互不干扰,又能完美协同的优雅逻辑。
2. 无缝融合的图形控制与 UI 精准微调
代码生成不应该是纯文本的黑盒,MoGraphGPT 赋予了用户强大的可视化和精准掌控力:
- 指哪打哪的图形代理:用户可以在系统画布上直接标点、画直线、画曲线或圈出区域(P1, L1, C1, R1),然后在输入提示词时直接引用(例如:“让平台沿着 C1 曲线来回移动”)。系统会在底层自动将这些手绘图形转化为精确的坐标参数。
- 自动生成的控制滑块:生成交互逻辑后,系统会利用专属 LLM 自动解析代码中的关键参数,并在界面右侧动态生成滑动条。用户想精确调整移动速度或重力大小?拖动滑块即可,所见即所得。
三、 效果与对比
为了验证系统的实际表现,研究团队与当前业界顶尖的 AI 编程助手 Cursor Composer 进行了对比实验:
- 效率实现显著提升:在完成同样的交互场景还原任务时,MoGraphGPT 的平均耗时比 Cursor 缩短了约 73.8%。
- 极大降低试错成本:用户所需要输入的提示词数量和文本长度分别大幅 减少了 68.4% 和 88.9%。在易用性、可控性与总体表现等主观评分上也显著提升。
- 告别致命 Bug:基于 LLM-as-a-Judge 及真实编译环境的测试结果显示,MoGraphGPT 生成的代码在致命错误(Fatal)和严重错误(Major)数量上均远低于基线工具。
开放式创作:释放无界创意
在自由创作环节中,无论是完全没有编程基础的小白,还是经验丰富的游戏开发者,都能在 10 到 30 分钟内使用 MoGraphGPT 完整构建出各具特色的作品,涵盖了双人游戏、射击游戏、教学演示动画、学术论文动态插图以及网页交互 Demo 等多种应用。
四、 总结与展望
MoGraphGPT 巧妙地在大语言模型代码生成与可视化无代码编辑之间架起了一座桥梁。其核心的模块化 LLM 调度策略和图形化操控不仅解决了复杂场景下的代码耦合问题,也为未来多智能体协同生成复杂应用程序提供了一种全新的交互范式。
未来,团队将进一步探索如何支持更庞大场景的交互式创作,探索代码可见性分级,并验证其在更多专业级引擎中的管线对接潜力。
想要体验零代码创造世界的乐趣吗?欢迎阅读原论文获取更多技术细节!
热门跟贴