游戏AI落地为何这么难？对话ThinkingAI：旧方法用不好现在的AI|agent|动作|正版客户端|沙箱|游戏|超级|陀螺

什么是 AI Agent？

它不同于普通大模型，你问一句它答一句，处于被动响应状态。AI Agent 是有自主目标、会思考规划、能调用工具独立完成复杂任务的系统。

它的核心价值，在于打通业务意图到落地执行的整条链路。你只需明确一个顶层业务目标，AI Agent 就能自动把它拆成具体的执行步骤。它会在干活时动态校验和自我纠偏，最终直接交付可用的业务成果。

Skill又是什么？

它是 AI Agent 能调用的、具体可执行的小工具。不同的 Skill 承担不同的执行动作。AI Agent 作为决策中枢，会根据具体的任务场景自主判断，决定什么时候该用哪个 Skill。

想必大家都听过这句话：“游戏是AI技术落地的最佳场景之一，也是探索相关技术、深度使用最激进的行业之一。”对于游戏公司而言，AI已经不是用不用的问题，而是怎么用。

最近陀螺君参加了不少关于“游戏+ AI”的行业大会。无论是游戏从业者，还是AI应用平台，都在强调该如何用好AI Agent。

但同时我们也深刻感知到，整个游戏圈对 AI 技术的落地有着巨大的焦虑。每家公司都在拼命想把 AI 用好，不是通用大模型，而是能自己做决策、干活的 AI。

但现实情况是，真正能把这套体系跑通的团队，少之又少。

基于这个观察，游戏陀螺这次邀请到了 ThinkingAI联合创始人兼 CTO 周津。

ThinkingAI联合创始人兼 CTO 周津

我们从多个角度进行了深度对话，话题覆盖了游戏 AI 应该如何实际落地、从业者如何成为驾驭 AI 的“超级个体”，乃至当前在管线中推行 AI 可能存在哪些误区......

内容很干，聊了不少实际应用的细节。希望能给正对 AI 感到迷茫或焦虑的游戏从业者，提供一些有用的参考。

以下是我们与周津的交流实录，为方便阅读，内容有所调整：

AI最大变化：这些工作用Agent能干吗？

游戏陀螺：游戏行业吸引您扎根，到现在All in AI的契机是什么？

周津：我们2015年成立时，几个合伙人都是游戏行业出身。我本人是重度游戏爱好者，因为觉得自己没有做游戏策划的天赋，所以选择了比较擅长的数据与AI方向，机缘巧合下将AI和游戏结合了起来。

去年到今年春节前后，大模型、Skill生态以及Agent能力的爆发，让大家看到Agent领域的变革已经发生。我们顺应趋势，做了产品定位转型和品牌升级，这件事内部筹划了很久，春节后才正式对外官宣。

游戏陀螺：全面转向AI的筹划，大概是从什么时候开始的？

周津：我们创业的第一个产品就是AI驱动的舆情分析。2022年底ChatGPT引爆后，我们一直关注大模型发展，内部也做了很多AI提效工具，产品里其实一直埋着AI的种子，只是当时没有激进地全面All in。

直到今年年初，看到Opus模型发布、Skill生态开放以及Agent能力的全面爆发，我们才在这个节点上对之前的积累做了全面升级和转型。

游戏陀螺：近年来，行业对AI应用的讨论从“做原画”变成了“全链路开发”，您个人感受最强烈的变化是什么？

周津：AI生成美术素材早在两年前的文生图时代就已落地。这一波Agent带来的最大变化，不是“能不能做”，而是“谁来用”。以前是人把AI当工具，但春节后能明显感觉到，大家开始思考：这些工作能否直接由Agent驱动？团队能否整体基于Agent工作流跑起来？讨论的话题已经从“怎么用工具”，变成了“怎么建立一套Agent化、体系化的组织能力”，这是大家当前最关心的问题。

游戏陀螺：目前游戏行业哪个环节对Agent模式的接受度最高、落地最通畅？

周津：目前还是在研发侧跑得比较快。首先，利用AIGC生成美术、生成素材，对于现在这个行业已经是标配，大家现在更多是聊效果细节。其次，在写代码环境，以前跑一个游戏原型Demo需要很长时间，现在通过AI辅助编程，能非常快速地把代码跑通、把项目落成。所以在游戏研发范畴内，Agent相对跑得比较顺畅。买量侧和运营侧因为离业务端非常近，需要大量前置数据处理工作，游戏公司也都在探索和尝试，但想直接产生业务效果，还需要时间迭代。

什么才是成为“超级个体”的核心能力？

游戏陀螺：很多人对“超级个体”有误解，认为是一个人能干几个人的活。就你的观察来看，未来真正的“超级个体”，核心竞争力是“AI的工程化调度能力”还是主观的“审美与品味”？

周津：品味和审美要分两个角度：感性的直觉和理性的洞察力。

首先是感性直觉，比如策划或美术一眼看出素材好坏，的确是核心竞争力。但光有品味不够，还需要理性化的工程化能力，才能把品味规模化和体系化落地。如果只有品味，能识别好坏，却无法做工程化落地，那么与Agent交互会非常复杂，出了问题也很难纠正。

现在讲究“harness”——驾驭Agent和大模型，这非常考验工程化能力。两者必须结合，结合后对人的要求反而更高。有的人品味好、直觉强，但工程化能力和逻辑结构化能力薄弱；有的人工程化能力强，但对业务的直觉相对弱。所以行业在寻找的“超级个体”，是那种既有业务品味、又能结构化落地的复合型人才。

游戏陀螺：游戏行业老兵的经验是抽象的，Skill如何将过去沉淀的经验“固化”的？

周津：Skill不是找几个老兵闭门造车写说明书出来的。它一定是在服务客户、处理真实问题时，从实际方案和成长经验中提炼出来的。比如要让Agent帮我去跑代码、调后台数据、做面板调整，这远不是输入一个Prompt那么简单。你发出指令后，它会调用我们基于这个问题建立起的一整套具有判断逻辑的工作流能力。这就是把真实经验拆解、提炼、固化的过程。

游戏陀螺：Skill的打磨具体过程是怎样的？它和Prompt有什么本质区别？

周津：Prompt和Skill有本质区别，Prompt更多是一次性的指令，跑完拿到结果就结束；Skill则是可复利的资产，越用越值钱，而且可以不断迭代优化。

把经验变成Skill的过程不是刻意去创建，而是通过与Agent交互自然产生的。举个例子，一个老兵解决实际业务问题，通过Prompt和Agent多轮交互，调用了企业内部的数据、资产和知识。跑完后他觉得这个方案有价值、可复用，就可以让Agent帮忙把这个过程生成一个Skill。它直观代表了解决某一类问题的思路。所以经验变成Skill，本质是对问题解决过程的抽象和封装，是自然产生的结果。

游戏陀螺：对于策划、美术等岗位，如何让Agent真正学习到独特的审美标准？

周津：这就像养小孩，你怎么养育它，它就越来越像你。如果你是一个美术总监，想让Agent逼近你的审美。

首先，必须把自己的设计思路和提炼过的内容沉淀下来喂给它。

其次，需要一套反馈评分系统。设定目标，当Agent输出后人工给它打分，告诉它哪些做得好、哪些偏离了标准。因为Agent自己不会觉得犯错，只有人的“品味介入”才能引导它。持续多轮交互调优，才能不断逼近独家审美。如果不愿意花精力干预，你就会觉得AI没用。

游戏陀螺：如何通过干预Agent接近自己审美标准的？

周津：你不能只告诉它对错，要让它知道哪一步偏离了标准、怎么避免再犯，你要告诉Agent什么是红线，什么是坚决不能触犯的。

另外，反馈过程的沉淀也非常关键。这次犯了错，下次怎么不再犯？这涉及Memory（记忆），承载过去常出现的问题并管理起来。而执行的标准和步骤，则通过Skill管控。每次解决业务问题，建立标准、校准Agent，再沉淀回Skill和Memory。循环几轮下来，Agent做决策的方式会越来越像用户，形成正反馈，也就更容易解决业务问题。

游戏陀螺：“超级个体”驱动多Agent协作的模式，会不会导致未来人与人的产能差距被放大到一种恐怖的程度？

周津：个人感觉会，而且这个差距可能比互联网时代更明显。在Agent时代，分水岭不在于会不会用AI，门槛差距不大。真正的核心在于：作为驱动Agent的个体，能不能把一件事情想清楚。比如目标是什么、要解决什么问题、怎么把想法拆解清楚，这是Agent时代真正稀缺的能力。

很多工作中有大量执行型岗位，这部分岗位恰恰是之前比较缺少思维训练维度的，所以受到的冲击会比较大。但另一方面这也缩短了其他差距，以前有想法但需要花大量时间学技术，现在AI能帮忙落地。这是一个很好的时代，也是残酷的时代。核心在于能否把“想要完成什么”这种偏顶层的结构化思维能力补上来，这是当下的核心竞争力。

多Agent协同应该如何破局？

游戏陀螺：为什么公司把积累的庞大文档、聊天记录喂给AI，AI依然听不懂人话、做不好业务？

周津：智能的本质是对信息做蒸馏和压缩。文档不等于知识。一个团队工作好多年攒下几万份文档、几十万条聊天记录，里面包含结论、讨论、废弃的决策、矛盾的决策。一股脑喂给AI，它会产生比人更严重的幻觉。

所以我们需要对每一份信息和文档做蒸馏和压缩，提取出真正代表关键信息和结论的知识。比如双方聊了一个小时，能用几句话概括核心观点，那才是最核心的知识，而不是把原始会议纪要当作知识沉淀给AI用。因此，当前企业需要思考的是如何构建结构化的、有版本、有优先级和权威性标记的知识库。

游戏陀螺：如果一个游戏团队想要让AI"对话框"变成能独立执行任务的"业务分身"，这中间需要人工做哪些核心的工作？

周津：Agent需要几个核心维度的信息。

1、核心事实。到底发生了什么？需要从信息中提炼出真实发生的事实。

2、决策。我们要明确定下来的、不能违反的明确决策。比如公司决定All in AI、发布某款产品、某天完成某个动作。

3、经验。之前犯过的错误，接下来不要再犯。比如聊天中语音识别经常误判某些词，这些踩过的坑要沉淀下来。

所以数据压缩的核心是把这几个维度定下来：业务经营的事实是什么、今天做了什么决策、之前有哪些错误和经验。把这些层次定义清楚，Agent出现幻觉或决策错误的概率就会大大降低。

游戏陀螺：不同职能的Agent协同工作时极易陷入死循环或互相吵架，这种底层“信息不同频”该怎么破局？

周津：我们内部就经常遇到类似问题。现在很多企业没有约束大家只能用哪个Agent，比如我们团队里有人用Claude Code、Codex，有人用OpenClaw、Hermes等。大家使用的Agent、模型不一致，导致协同时对同一内容的解读和判断完全不同。

这需要企业解决几个方面的问题：第一，建立共享的企业Memory和知识库。现在每个人更像本地化管理，同事之间相互隔离，无法共享Memory和业务上下文来对齐，这会产生很多分歧。企业需要统一这套共享体系，可以理解为Agent背后的统一价值观。

拉齐模型能力。不同模型范式不同，比如Opus写代码逻辑推理更强，DeepSeek写中文内容产出更好。企业内部需要统一模型标准，让大家在同一个能力模型下对话。

建立Agent间的协同机制。现在更多是“丢个文档给AI看”，但文档已经丢失了解决问题的思路，下一个Agent无法承接。需要一个统一平台，把解题的过程框架完整交接给下一个Agent。这些也都是包括我们以及很多企业级Agent平台正在探索的方向。

游戏陀螺：实现多Agent协同，面临的最大技术难点是什么？

周津：多Agent协同的最大难点，跟跨部门协作的痛点一样，就是“信息互通与上下文对齐”。如果业务侧和支持侧的Agent不在同一套“上下文共识”下工作，就会产生偏差。

打不通这个问题，两个Agent放在一个群里协作，就会陷入逻辑死循环、互相吵架甚至擅自更改目标。所以多Agent协同的核心前提是：必须有极强的、拉通的企业级知识库和Memory底层基建，作为各方Agent的“唯一事实基准”。这也是目前绝大多数企业应用最缺乏的环节。

游戏陀螺：能否用实际场景拆解一下，怎么让不同Agent在同一认知标准下高效配合？

周津：举个例子，一个游戏版本上线前，需要玩法测试、数值适配、QA、运营等多个Agent协同。首先大家需要面对同一个策划案：这版本要解决什么问题、带来什么体验。这不是靠一个文档完成的，而是需要一个共享读写的项目知识库，包含从思路到落地的完整过程，比如玩家画像、数值红线、badcase（不理想结果）等，QA看到这些才知道怎么测试。

其次研发完成后，要把整个解决过程结构化地传递给QA，而不仅仅是最终代码。就像公司调整方向，不能只跟同事说“你去做这个”，得让他知道所以然。Agent也一样，需要把思考、背景和过程完整告诉它。

游戏陀螺：想让Agent在研发管线里稳定地运转输出，不同岗位的人除了本职审美之外，在AI层面需要补充哪些底层技能？

周津：确实，在利用AI驱动工作的时代，对于人的核心能力要求发生了变化。具体来说，有三个关键内容变得尤为重要。

第一，问题拆解能力。假如你是研发人员，我们不是看你能用 Agent 写多少代码，而是看你能不能把自己的目标，以结构化的方式拆解成一个个清晰的问题，再交给 Agent 去执行。这本质上是对问题的定义能力，要把抽象的目标层层分解成可执行的任务。

第二，评测体系构建能力。你需要能判断 Agent 输出的结果是好是坏，并形成一套可操作的评测标准。有了这套体系，Agent 才能在不断尝试和犯错中持续自我优化；否则只能靠运气，结果不可控。

第三，知识沉淀能力。把你拆解问题的方法、评测体系等经验，沉淀成知识体系，包括记忆（memory）和技能（skill）。这样 Agent 会越用越聪明、越跑越快，因为你在持续训练它、积累有用的信息。

游戏陀螺：在实际研发中，比如让Agent去对接游戏引擎里的核心系统时，应如何构建包含"执行-验证-回滚"的工程化闭环？

周津：Vibe Coding都有这个痛点。代码越积越多，怎么避免死代码，怎么避免修一个问题引出多个新问题。当前不能让Agent直接修改生产代码，风险太大。一定要构建隔离环境——沙箱机制。

在沙箱里执行，有自动验证、Review网关、人工审核，通过后再灰度合入，合入后还要做多Agent协同测试。整个流程在沙箱跑通，最后人工审核放行，才能上生产。现在生成代码不是问题，十几分钟就能生成大量代码；真正的难点在于验证和测试，确保可靠性。把管线构建好，尤其是沙箱体系，才是关键。

游戏陀螺：游戏公司在放权给AI时会很担心AI做出破坏性或者反常理的动作。在实际的游戏跑通管线里，应该怎么给AI划定这个犯错的"安全边界"？

周津：这个安全顾虑必须被接受，因为当前的Agent就是会出现幻觉和结果不准。解决的核心在于：在可控的范围内允许它犯错。完全百分之百安全的Agent目前不现实。我们引入沙箱和灰度发布，允许犯错但把边界收拢。

"犯错"意味着获得了反馈——它为什么做错？产生了什么负面影响？这些信息极其有价值，是驱动Agent后续进化迭代的数据源。就像教导人类员工，需要不断设定目标、划定边界、给予纠正。我自己跑Agent时，它方向错了，我让人工介入反问"你为什么要这么做？依据是什么？"然后反馈正确做法，下次就不会再犯。

有些事情比全面引入AI更难

游戏陀螺：推行Agent时，组织流程阻力和技术实现阻力，哪个更让团队头疼？哪种更难用“工程化”手段解决？

周津：短期看，技术阻力比较明显，包括模型选型、Agent工作流搭建、知识库搭建、沙箱环境等。但这些是短期阻力，长期来看组织阻力更大，甚至比技术阻力大指数级别，而且很难用工程手段解决。技术问题再难，总有方案。组织问题往往表现为：大家都说拥抱AI，但"我那块比较敏感，不能先动"，需要先在别的区域落地。这背后没有工具能解。

例如，一个积累多年的产品代码量庞大，用Vibe Coding方式重构风险极大，这时候面临风险与收益的抉择，必须由企业一号位拍板。个人做法不是硬推全公司"All in AI"，而是先找一个具体业务场景，组织一个小团队破冰，跑出完整闭环，证明价值，再用这个案例推动其他体系，这样比硬推更务实。

游戏陀螺：公司引入Agent体系通常要从小范围尝试，目前有没有全面引入成功的案例？这种团队的整体状态是怎样的？

周津：坦率说，这个事很新，还没有看到整个工作逻辑跑得非常成熟的团队。大家还在探索、实践、试错的过程中。当然有些团队跑得相对更好。一个好的标志是：每个人都能找到使用自己Agent的正反馈。如果形成负反馈——用Agent还不如自己干，还得擦屁股打补丁，后续就很难改变。

第一步，企业需要先构建公司的知识库，否则Agent是割裂的。第二步，把老兵经验沉淀为内部Skill，让大家能分享、使用、下载。第三步，每个人有自己的Agent沙箱工作空间，解决自己的业务问题。能做到这些已经算不错了。下一步要解决的是多Agent协同解决复杂问题，这还在探索中。

游戏陀螺：从目前游戏行业落地落地AI的现状来看，有没有哪件事是大家普遍做错或完全误解的？

周津：有些人可能认为，AI落地就是买一些模型服务、给全员配一个Claude Code，就能跑起来了，这远远不够。本质上应该是重建一套企业内部的工作范式。配模型、建AI团队都不难，难的是把整个团队的工作流程扭转过来。AI和Agent不是工具，也不是能力，而是一种思维方式，一种解决问题的全新模式。要学会与Agent协同相处，让整个团队围绕Agent打造新的工作模式。

游戏陀螺：这其实也是你对尝试部署Agent的游戏公司的核心建议？

周津：是的。游戏公司各有自己的核心竞争力，但如果想通过Agent驱动公司提效或游戏生产转型，应该把更多时间和精力放在团队工作流的迭代改进，以及每个人对Agent认知思路的对齐上，而不是让所有人用上Agent工具就能解决问题。

游戏陀螺：把时间拉长到三五年，一个“完全体”的游戏公司Agent，最让您期待的能力是什么？

周津：长期来看，如果一家游戏公司能够实现生产出来的游戏是一个不断自我进化、自我演化的内容生态，那才是几年以后的完全体游戏。现在大家交付游戏是一个版本一个版本更新，但如果游戏能够在玩家眼前持续进化，作为玩家，非常期待这个愿景。很多游戏公司已经在往这个方向探索。

游戏陀螺：这样的场景确实很酷。现在做AI原生游戏更多是在AI NPC上做文章，希望通过不同AI NPC之间的交互得到不同的答案或行为。

周津：这些都是演进过程中的每一步。这块确实有很多生产问题要解决，比如有人开玩笑说，如果NPC背后是大模型，是不是可以让它帮忙写代码、帮忙干活？这些边界问题、人格问题等，大家都在探索。如果要畅想，确实很期待那一天到来。