中科院把研究员和设计师都塞进了一个PPT AI系统|ppt|中科院|幻灯片|研究员|设计师

你有没有遇到过这种崩溃时刻：要汇报的PPT明天就要交，你折腾到半夜，一边查资料一边排版，做出来的东西还是字体不统一、排版乱七八糟，而整体风格呢，毫无美感可言。这种痛苦几乎是打工人的共同记忆。PPT本身不难，难的是同时要做好两件事：一是把内容研究透彻，二是把视觉设计做得好看。这两件事单独拿出来都要花不少时间，合在一起更是要命。

中科院软件所的研究团队注意到了这个问题，开发了一个叫做DEEPPRESENTER的AI系统，能够自动完成从研究资料到生成精美演示文稿的全流程。更关键的是，这个系统有一个别的同类工具都不具备的能力：它会把自己生成的PPT"看一遍"，发现哪里不对劲，然后自己改掉。这就好像系统里住着一个会"挑剔自己作品"的设计师，而不是生成完就拍屁股走人。

PPT生成器为什么以前总是做出"电子垃圾"

要理解DEEPPRESENTER的厉害之处，我们得先聊聊它的前辈们为什么不好用。

想象一下，你雇了一个秘书帮你做PPT，但这个秘书的工作方式是这样的：他事先背好了几套固定的PPT模板，然后不管你给他什么主题，他都往模板里塞文字。做完之后，他不会去翻开PPT看实际效果如何，而是假设"我打完字了，应该就没问题了吧"。

这就是以前大多数AI生成工具的工作方式。它们依赖预设好的模板，按照固定流程填充内容，生成完就结束。具体来说，有两个核心问题让这些工具做出来的东西差强人意。

第一个问题是"内容浮于表面"。这些工具大多不会主动去查资料，只能把用户提供的文字重新排布一下。如果你让它做一个关于"注意力机制"的AI入门科普PPT，它不会去读论文、找图片、整理关键信息，而是把你随手给它的几句话拆开塞进不同的幻灯片里。结果自然是内容单薄，看着像是初中生做的报告。

第二个问题更隐蔽，叫做"只在脑子里自检，不用眼睛看结果"。以前的AI工具在检查自己的输出时，只能分析自己生成的代码或者文字，也就是"中间状态"，而不是用户真正看到的那个渲染出来的画面。打个比方，这就像一个画家画完一幅画，评价好坏时不是看实际画布，而是去回想自己用了哪几种颜色、画了几笔，这能判断出"文字溢出边框"或者"两个元素叠在一起"吗？显然不行。结果就是，AI觉得自己生成的代码没问题，但渲染出来的PPT里文字挤成一团、背景和字色太接近根本看不清、图片路径写错了显示一片空白，这些毛病它全部发现不了。

DEEPPRESENTER要解决的，正是这两个根本问题。

一个研究员、一个设计师，外加一双会"看PPT"的眼睛

DEEPPRESENTER的核心设计思路是把做PPT这件事拆给两个专门的AI"角色"来完成，同时给它们配备了一个关键工具，能真正"看到"PPT渲染效果的检查能力。

先说第一个角色，叫做"研究员"（Researcher）。这个AI的职责是在你提出需求之后，主动去搜索、阅读和整理相关资料。如果你说"我要做一个给初学者看的、关于Transformer模型的PPT"，研究员会真的去查相关论文，下载资料，生成配套图表，整理成一份结构清晰的"讲稿文档"，就像你给演讲者准备的那种提纲加素材的文档，而不是直接上手画幻灯片。

更聪明的地方在于，研究员的工作深度会根据主题自动调整。如果是技术性话题，它会去深挖相关研究；如果是面向普通大众的科普，它会优先找通俗的例子和易懂的插图。它不是按照一套死板的流程走，而是"理解了你的需求"之后灵活规划自己的工作路径。

第二个角色叫做"演示者"（Presenter）。它接过研究员准备好的讲稿文档，从零开始设计幻灯片。注意是从零开始，不是套模板，而是先给整个演示文稿定一个视觉主题：选配色、定字体、规划布局风格。比如，如果主题是环保，可能会用绿色和大地色系；如果是学术汇报，会偏向简洁的白底黑字风格。然后再逐页生成幻灯片，把讲稿内容转化成视觉设计。

这两个角色分工协作，通过一个共享的"工作台"传递文件和信息，就像一个办公室里研究员把报告递给设计师，设计师再基于报告做出PPT。

但真正让这套系统与众不同的，是第三个关键设计：一个叫做inspect（检查）的工具。

这个工具的工作原理很直接：把生成的幻灯片HTML文件放进一个"无头浏览器"（就是没有界面的浏览器），让它真正渲染出图片，然后把这张图片"给AI看"。AI看完后，如果发现"这里的标题字太浅，跟背景几乎融为一体"，或者"这一页的图片路径错了，显示空白"，就会立刻记录下来，计划修改，然后真的去修改代码。

这种"先看渲染结果，再反思，再修改"的循环，研究团队称之为"环境感知反思"（Environment-Grounded Reflection）。与之相对的，是以前那种只能"自言自语"反思自己代码的"自我反思"方式。两者的区别，就像你评价一道菜是"看着食谱说应该很好吃"，还是"真的先吃一口再说"。显然后者要靠谱得多。

同样，研究员那边也有一个inspect工具，不过功能有所不同，它会检查讲稿文档里有没有图片引用路径写错、语言是否符合用户要求、幻灯片数量有没有满足指定条件等。这样整条流水线的每一个环节都有真实的观察和纠错能力，而不是盲目往前走。

训练一个"会独立工作的小模型"：让AI教AI

DEEPPRESENTER用大型模型（比如谷歌的Gemini-3-Pro）跑得很好，但有一个现实问题：这些顶级大模型调用费用不便宜，每次生成PPT的成本在真实使用中会显得有些高。研究团队的思路是：能不能用一个小得多、便宜得多的模型，训练它"学会"DEEPPRESENTER的工作方式，让它也能有样学样地做出高质量的PPT？

于是他们开发了DeepPresenter-9B，一个参数量为90亿的专用小模型（相比之下，顶级大模型的参数量往往是其几十倍甚至更多）。训练这个小模型的过程，有点像培养一个新手设计师的方式，给他看大量"优秀作品的完整制作过程"，让他学习每一步的思路和操作。

这些"制作过程"叫做"轨迹"（trajectory），每一条轨迹记录了从接到任务到完成PPT的所有中间步骤：查了什么资料、写了什么内容、生成了哪些幻灯片、发现了什么问题、做了什么修改。研究团队用大模型跑了1024个不同主题的PPT任务，收集这些完整的工作轨迹，再拿来训练小模型。

但这里有一个棘手的问题，研究团队把它叫做"自我验证偏见"。简单说就是：同一个AI既当运动员又当裁判，容易出现"自我感觉良好"的错觉。AI在生成PPT之后自己检查，很可能会说"这一页做得很棒！"，因为检查这个动作和生成这个动作都来自同一套思维状态，容易产生先入为主的判断，对自己已经做出的东西保持莫名的信任。

为了解决这个问题，研究团队引入了一个独立的"外部批评者"（Extrinsic Verification）。每次AI用inspect工具看完自己生成的幻灯片之后，不是让它自己写反思，而是把渲染图片单独交给另一个独立的AI来评审。这个独立批评者和生成过程完全隔离，不知道之前发生了什么，只对着眼前的图片做出评判：这里对比度太低，那里文字溢出，请改进。这个评判意见会被插入到训练轨迹中，作为"正确的反思应该长什么样"的示范。

打个比方，这就像一个学生写完作文之后，不是自己改自己的文章，而是把作文交给另一个老师来批改，再把批改意见带回来。这样学到的"如何自我纠错"的能力，会比自己看自己要可靠得多。

在这个独立批评者的帮助下，研究团队发现，同样的300个训练样本，加入外部验证的那组模型性能提升是没有外部验证组的1.67倍（平均分提升0.20对比0.12）。差距不算小，说明"独立批评"这个机制确实有效地打破了AI的自我幻觉。

最终，1024个训练任务跑完之后，经过三轮严格的质量筛选，先检查有没有满足用户指定的约束条件，再检查AI有没有真正按照批评意见去修改，最后再检查最终PPT有没有明显的视觉缺陷，筛出了802条高质量轨迹，用来训练DeepPresenter-9B。

数字会说话：它到底有多强？

研究团队拿128个不同主题、不同格式要求的PPT生成任务做了测试，横跨中英文、16:9宽屏和4:3标准比例、限定幻灯片数量和自由发挥等各种情形。评估维度有三个：内容质量（你说的话有没有做到）、视觉风格（PPT好不好看）、约束满足度（有没有按用户要求的幻灯片数、语言、比例来做）。

结果用平均分来看（满分5分），DEEPPRESENTER用Gemini-3-Pro作为底层模型时，拿到了4.44分，超过了商业产品Gamma的4.36分，也把其他所有开源框架甩在了身后。其中最显著的提升来自内容质量，因为研究员会自主搜集资料，内容丰富度远超那些只能靠用户自己提供材料的工具。

另一个有意思的指标叫做"多样性分数"（Diversity Score），用来衡量同一个系统做出来的不同PPT之间长得有多不一样。这个指标满分1分，那些依赖固定模板的工具普遍在0.17到0.35之间，而DEEPPRESENTER拿到了0.79，相当于"从零设计"带来的风格自由度是"套模板"方式的两倍多。就连商业产品Gamma也只有0.52，不如DEEPPRESENTER。

而那个"经济实惠的小弟"DeepPresenter-9B，平均分达到了4.19，超过所有开源基线模型，基本和GPT-5打平（GPT-5在DEEPPRESENTER框架下是4.22），但使用成本要低得多。从"性价比"角度看，DeepPresenter-9B在同等成本下的表现远优于其他竞争对手。

此外，研究团队还做了专门的消融实验，就是把系统的某个部件拆掉，看会发生什么。拆掉"环境感知反思"（让AI无法真正看到渲染后的PPT）之后，Gemini版本的平均分从4.44跌到4.32，小模型版本从4.19跌到3.82，跌幅更为明显。拆掉"双智能体分工"（把研究员和演示者合并成一个）之后，小模型的平均分直接跌到3.23，说明这个分工设计是系统能维持高水准的重要基础。

AI也会"犯错的地方"：失败案例告诉我们什么

研究团队没有只展示好的数据，他们也认真分析了系统在哪里会出问题。

在收集训练轨迹的过程中，未能通过质量筛选的轨迹里，问题来自四个方向：最多的是"输出质量不达标"，占43%，说明在自由发挥的生成模式下，保持稳定的高质量并不容易；其次是"环境运行问题"，占32.3%，主要是上下文窗口装不下那么多内容（因为生成PPT的过程步骤很长，需要记住的中间状态非常多），或者底层基础设施出故障；剩下的是约束没满足（13.5%）和行为不一致（11.2%）。

这说明这类长步骤的AI工作流对稳定性要求很高，一旦中间哪个环节出了差错，整条链可能就断了。研究团队坦承这是目前还没有完全解决的挑战。

另外，DEEPPRESENTER的"外部批评者"目前只在训练阶段用，真正跑起来生成PPT的时候并不使用，因为实时引入外部批评者会让运行成本更高、速度更慢，而且有时候批评者提的意见和AI的实际修改方向对不上，反而带来新的问题。研究团队认为，如何在真实推理时也有效解决"自我验证偏见"，是未来值得继续研究的方向。

至顶AI实验室洞见

DEEPPRESENTER做了一件听起来简单但以前没人做好的事：让AI在生成PPT的过程中，真的去"看"它自己做出来的东西长什么样，而不是假装看了。这个小小的改变，背后是对"AI如何自我纠错"这件事的重新理解，你不能在脑子里想象一道菜好不好吃，你得先尝一口。

对于普通人来说，这个系统最直接的意义是：你可以把一篇论文、一个主题、一个演讲需求扔给它，然后去倒杯水，等回来就有一份真正认真做过的PPT，不是模板填充，是有调研、有设计、有自我检查过的作品。当然，目前这套系统还不是可以直接下载使用的产品，更多是学术层面的框架和验证。但随着技术的成熟，这类工具走入普通办公场景只是时间问题。

你会不会让AI帮你把下一份重要的演示文稿做好？如果AI真的能做到"看着改、改完再看"，你还会坐在电脑前熬夜调字号吗？

论文地址：https://arxiv.org/abs/2602.22839v1

END本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1：DEEPPRESENTER和普通的AI生成PPT工具有什么不同？

A：最大的不同在于两点：一是它有专门的"研究员"会主动搜集资料，而不是只靠用户提供内容；二是它会把生成的幻灯片真正渲染成图片"看一遍"，发现视觉问题后自己修改，而不是生成完就结束。

Q2：DeepPresenter-9B是什么，和主系统有什么关系？

A：DeepPresenter-9B是研究团队基于DEEPPRESENTER框架训练出来的一个小型专用模型，参数量约90亿，运行成本远低于GPT-5等大模型，但在PPT生成质量上接近甚至超过了大部分开源竞争对手，是"经济实惠版"的DEEPPRESENTER。

Q3：这个系统现在可以直接用吗？

A：目前DEEPPRESENTER以学术研究框架的形式发布，项目代码在GitHub上开源（https://github.com/icip-cas/PPTAgent），有技术背景的用户可以尝试部署，但尚未以成品应用的形式面向普通用户。