中科院软件所开源首个本地通用幻灯片智能体，9B参数打平GPT-5

机器之心Pro

2026-03-18 15:47 ·河北 ·《机器之心》官方网易号

天下苦 PPT 久矣。

体验过市面上各种 AI 生成 PPT 工具的人，往往都会遇到同样的痛点：排版崩坏、内容空洞、经不起推敲。为什么会这样？因为目前的通用大语言模型（LLM）写 PPT，本质上是在对话框里 “盲写” 代码或文本。它们既没有真正的 “手” 去查阅权威文献，也没有真正的 “眼睛” 去审视自己排版出来的最终效果。

近日，中国科学院软件研究所中文信息处理实验室开源了第二代 PPTAgent --DeepPresenter。这是业界首次将幻灯片智能体模型与完整的智能体沙箱环境一同开源，更能支持在单张 3090/MAC 上一键部署。它彻底重构了 AI 制作 PPT 的逻辑，让智能体不仅能 “深度探索”，还能 “亲眼所见”。

GitHub 链接: https://github.com/icip-cas/PPTAgent
HuggingFace链接: https://huggingface.co/collections/ICIP/deeppresenter
论文链接: https://arxiv.org/abs/2602.22839

核心破局点：给智能体装上 “眼睛” 与 “手”

DeepPresenter 放弃了传统的 “语言模型直接生成” 路径，而是将智能体置入了一个全功能的 Docker 沙箱环境（Shared Agent Environment）中，直接切中目前 AI 办公的两大痛点：

痛点一：内容全是 “车轱辘话” 和幻觉？

解决：构建强大的智能体环境，赋予其研究和阅读的 “手”。

在 DeepPresenter 中，智能体手握 20+ 种专业工具。它不仅能通过 MinerU 深度解析复杂的 PDF 文献，还能实时连接 arXiv 和 Google Scholar 进行有据可查的深度调研（DeepResearch），甚至可以直接运行 Python 代码来绘制数据图表，确保 PPT 内容的专业度与数据准确性。

痛点二：排版错乱、文字挡图？

解决：环境感知反思机制（Environment-Grounded Reflection），给它加上 “眼睛”。

以往的模型不知道自己生成的排版长什么样。而 DeepPresenter 形成了一套 “写→看→改” 的视觉闭环。Presenter 智能体每写完一页代码，都会调用沙箱内的浏览器将其渲染成真实图片，然后 “亲眼” 检查这张截图。标题被挡住了？对比度不够？它会像人类设计师一样立即进行自适应调整并回炉重造，直到视觉效果完美。

案例演示

只需一行极其简单的指令，即可体验这种全新的 Agentic 工作流：

接收指令后，DeepPresenter 会立即启动：Researcher在自动检索相关的相关资料和高清图片；随后交棒给Presenter，根据呈现主题设计相称的风格，最终输出一份内容扎实、样式精美的幻灯片。

帮我做一个小米 SU7 的 PPT

制作一份4:3幻灯片，以美国自由漫画师视角分享创作《超级战队》与《假面骑士》同人作品的实用技巧，涵盖理解原作、发展风格、捕捉角色、编写故事及建立粉丝社群

帮我做一份关于罗宾汉（Robin Hood）的介绍 PPT，包含历史背景、传奇故事和文化影响。

更重要的是，所有生成内容均为 .pptx 可编辑格式，支持自由修改与二次创作，彻底摆脱类似 nanobanana 那样 “生成后无法编辑” 的困扰，让 PPT 创作真正可控、高效、灵活。

核心技术：如何炼成 “最强 PPT 智能体”？

DeepPresenter 之所以能以 9B 参数实现 “下克上”，核心在于其创新的训练流水线（Pipeline）：

1.数据构建：团队基于 PersonaHub 与 arXiv 等多源数据集构建了高多样性的任务数据。通过在指令中显式定义页数限制、长宽比及语言策略等细粒度约束条件，确保模型在训练阶段即建立了对复杂用户意图的深度语义表征。

2.外在验证引导：为了打破智能体 “自我感觉良好” 的验证偏差（Self-verification Bias），团队引入了独立评审机制。在训练数据合成阶段，由独立模型作为 “独立评估者” 指出生成产物中的排版或逻辑缺陷，引导智能体产生高质量的执行轨迹

3.多级轨迹过滤：团队从 1,152 个任务中筛选出 802 条顶级质量的智能体轨迹进行 SFT 训练。这些轨迹涵盖了中英双语、多种宽高比及复杂的指令约束。

性能实测：消费级显卡下的极限表现

为了全面验证 DeepPresenter 的实际效果，作者在预留的 128 个任务上使用 PPTEval 进行了系统评测，并与三种主流幻灯片生成方案进行了对比。

在此基础上，作者进一步分析了不同模型设置下的成本 — 性能表现，从 “效果” 和 “成本” 两个维度进行综合评估。

结果表明：DeepPresenter-9B 取得了 4.19 的高分，表现与闭源模型 GPT-5（4.22）几乎持平，并且 DeepPresenter 显著优于其他的幻灯片生成方案。

更值得关注的是，在成本 — 性能曲线中，DeepPresenter-9B 位于前沿的 “突变点” 位置，意味着在性能与价格之间达到了极具竞争力的平衡。

换句话说，它用GPT-5 几十分之一的算力成本，实现了同等级别的智能表现。这也意味着 —— 在消费级显卡上，我们就能够运行一个媲美顶级闭源模型的 PPT 智能体。

目前，DeepPresenter 项目已完全开源，欢迎开发者共同构建 Presentation Agent 的未来。

作者介绍：

本开源项目以及论文作者均来自中国科学院软件研究所中文信息处理实验室孙乐研究员、韩先培研究员团队，主要作者包括郑昊、莫国钊、陈轩昂、陆垚杰及林鸿宇。实验室的主要研究领域包括大模型和大模型驱动智能体的知识机制、知识能力增强及应用。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴