刚刚，豆包2.1发布！Agent自己跑18个小时搞定芯片设计代码|agent|代码|工作流|开源模型|调用|豆包

金磊发自凹非寺
量子位 | 公众号 QbitAI

就在刚刚，又一个新版国产模型来了。

这次的主角是字节——Seed 2.1系列。

△火山引擎总裁，谭待

这个版本一共包含2个模型，分别是Doubao-Seed-2.1-Pro和Doubao-Seed-2.1-Turbo，并且API服务已全量上线火山方舟。

那么这个新模型到底什么水平？

火山引擎便放出了一个很直观且有feel的案例：

视频地址：
https://mp.weixin.qq.com/s/Q4UufKRH4-BTlA3mRE7Uvg

视频演示的是芯片设计行业里非常严谨的RTL环节，会细节到每个寄存器和信号线在每个时钟周期里怎么流动都得说清楚。

这个工作量基本上得3-5名人类工程师花数周时间才能搞定。

而Seed 2.1 Pro围绕一个16×16 PE的Tiny NPU Tile，连续运行近18个小时，经历9轮迭代，最终完成了6个核心模块、1303行RTL代码！

再来看下榜单评分的表现。

以贴近真实终端编程环境的Terminal Bench 2.1为例，Seed 2.1 Pro已经做到了基本上能和Claude Opus 4.7持平；在科学计算代码评测SciCode上，Seed 2.1 Pro甚至超过Opus 4.7和GPT-5.5。

并且像工具调用的MCP-Atlas评测，Seed 2.1 Pro同样是超过了Opus 4.7和GPT-5.5。

在六月新鲜出炉的Agents’ Last Exam（ALE，覆盖13个行业集群、1000多项高经济价值真实任务）基准评测中，Seed 2.1 Pro已经处于当前参评模型的第一梯队水平。

还有一个非常实在的亮点，那就是价格。

因为Seed 2.1 Pro在能力跟国外头部AI做到比肩的同时，价格还仅仅是1/4（以Opus 4.6-4.8为例）：

并且放眼国内玩家，Seed 2.1 Pro也是具备一定优势：

每百万Token输入价格为6元、输出价格为30元、缓存命中条件下只需要1.2元。

并且根据火山引擎总裁谭待的介绍，豆包日均Token的使用量已经突破180万亿！

那么把豆包最新模型丢到实实在在的工作环境，它的效果到底如何？

老规矩，一波实测走起~

把Seed 2.1 Pro扔进一天的工作流

先说下测试环境。

我们这次主要在OpenCode中调用Seed 2.1 Pro API完成。

也就是把它放进一个更接近Claude Code、Codex的开发者环境里，看它面对长Prompt、代码生成、文件型交付和结构化报告时，能不能真正把任务跑下来。

第一个任务，我们直接上强度：

生成一个完整的3D房屋

我们给Seed 2.1 Pro的Prompt是这样的：

请在当前目录创建一个单文件WebGL2项目，只生成一个index.html，不要创建其它文件。目标：实现一个可以在浏览器中直接运行的3D房屋展示，类似一个完整的郊区别墅/住宅模型。要求结构完整、体积可信、可交互导航，并且全部代码都写在index.html里。硬性要求：1. 只允许一个index.html文件。2. 不允许使用Three.js、Babylon.js、React、Vue、外部CDN、图片、字体、glTF模型或任何外部资源。3. 必须使用原生WebGL2。4. 浏览器打开index.html后即可运行。5. 页面中必须有一个完整的3D房屋场景，而不是简单盒子。6. 必须支持交互导航： - 鼠标左键拖拽旋转视角； - 鼠标滚轮缩放； - WASD移动视角或平移； -R键重置视角。7. 代码要有基本结构，不要堆成不可维护的一团。房屋细节要求： - 主体房屋至少包含两层体量； - 有多段坡屋顶，屋顶不能只是一个平板； - 有正门、门廊、台阶； - 有多个窗户，窗户要有窗框和玻璃材质； - 有车库门； - 有烟囱； - 有草坪、车道、小路； - 有树、灌木、路灯等简单环境元素； - 有基础光照、阴影感或明暗层次； - 有天空背景或渐变背景； - 整体风格偏温暖、干净、低多边形但精致。技术实现建议： - 自己写WebGL2初始化、shader、矩阵变换、相机控制； - 封装createBox、createRoof、createWindow、createDoor、createTree等函数； - 可以用立方体、三棱柱、简单几何体组合出房屋； - 使用简单材质颜色和法线光照； - 尽量保证代码可读，必要处写注释。交付要求：1. 创建并写入index.html。2. 完成后告诉我如何在本地打开。3. 如果你认为某些功能风险较高，优先保证能稳定运行，再做视觉增强。

这类任务有意思的地方在于，它同时测了几件事：

模型能不能理解复杂需求，能不能把3D图形拆成可执行的几何结构，能不能在没有外部库的情况下，把WebGL渲染、相机控制、光照、材质、交互都写出来，以及能不能在OpenCode里根据结果继续迭代。

在稍等片刻过后，一个3D房屋就诞生了：

但有一说一，第一版的效果还是比较简陋，因此我们在上一轮的基础上，继续做优化。

我们再给到Seed 2.1 Pro这样的Prompt：

当前index.html已经可以运行，但视觉效果比较简陋。请不要重写整个项目，而是在现有代码基础上增量优化。任务目标：把当前原生WebGL2单文件3D房屋，从“简陋盒子模型”升级成“完整郊区别墅展示Demo”。严格限制： 1. 只能修改当前index.html。 2. 不要新增任何文件。 3. 不要引入Three.js、Babylon.js、外部CDN、图片、字体、模型或任何外部资源。 4. 必须继续使用原生WebGL2。 5. 不要破坏当前已经能运行的状态。 6. 优先保持稳定运行，再增强视觉。请重点优化以下内容：一、房屋结构 - 当前房子如果太简单，请拆成至少三个主体体块：左侧二层主体、中间入口体块、右侧车库体块。 - 屋顶要从单一屋顶升级为多段坡屋顶，包括主屋顶、入口小屋顶、车库屋顶。 - 屋顶需要有屋檐、屋脊、边缘线条，避免看起来像简单三角块。 - 增加烟囱，并让烟囱位置合理。二、正面细节 - 正门要更精致：门框、门把手、门上小窗、门前台阶。 - 增加门廊：两根柱子、小屋檐、门前灯。 - 增加多个窗户：每个窗户需要窗框、横竖分割线、玻璃颜色和轻微高光。 - 车库门要有分格线和边框，不要只是一个大色块。 - 增加墙面装饰线条，例如底部踢脚线、窗台、檐口线。三、庭院环境 - 增加前院草坪。 - 增加从车库延伸出来的车道。 - 增加从正门到画面前方的小路。 - 增加2棵树、几簇灌木、花箱、邮箱或长椅。 - 增加庭院灯，放在小路两侧或车道旁。四、视觉效果 - 默认视角要正对房屋，略微俯视，能看到正门、车库、屋顶和前院。 - 色彩改成温暖、干净、低多边形但精致的风格。 - 增强光照方向感，让屋顶和墙面有明暗层次。 - 背景用天空渐变，不要纯黑或纯白。 - 地面不要太空，加入远处轻微起伏或简单背景元素。五、代码要求 - 保留现有相机控制和交互。 - 尽量复用现有draw/create函数。 - 如果需要新增函数，请保持命名清晰，例如addHouseBody、addRoof、addWindow、addGarage、addTree、addShrub等。 - 修改完成后，请检查明显的JS语法错误、shader错误和WebGL2初始化错误。完成后简要告诉我： 1. 你主要增强了哪些视觉元素； 2. 本地如何运行； 3. 如果还有下一步优化，建议优化什么。

在优化的过程中，我们不难发现，Seed 2.1 Pro不会只一次性地去生成代码，它会有一个逐行代码再检查的过程：

在第二轮优化之后，3D房屋的效果就变成了这样：

在经过一次优化迭代之后，3D房屋的效果要比第一次更加柔和且细粒度了一些。

以此类推，再经过Seed Pro 2.1一次优化迭代之后（提出更加细节的Prompt），我们便得到了最终的成品：

直接生成一个可用的PPT

虽然这个任务看着像在用开发者工具里做PPT，但这也刚好能体现同一个API既能搞开发，也能做汇报工作。

然后这次我们给Seed 2.1 Pro的Prompt是这样的：

你是一名科技产业分析师兼PPT设计师。请基于网络搜集的材料，帮我设计一份10页中文汇报PPT，主题是《AI Agent进入企业生产系统的三个信号》。要求：1、先给出10页PPT的完整目录；2、每一页都要包含：页面标题、核心结论、3个以内要点、建议使用的图表或视觉结构；3、至少设计3页强视觉页面，例如产业链地图、能力演进时间轴、竞争格局象限图；4、语言要像科技媒体给企业高管做汇报，短句、抓重点，不要PR腔；5、最后额外输出一张“核心逻辑总览图”的SVG代码，要求可以直接复制到浏览器渲染。

同样的，Seed 2.1 Pro依旧是在分析完任务需求之后，给自己制定了Todo list，然后按照计划一步一步地执行：

在片刻过后，刚才我们Prompt里提到的所有文件，就这么水灵灵地一口气诞生了：

我们先来看下PPT的效果：

和以往AI做PPT感触很不一样的一点是，这次不论是内容，还是设计感，已经没有那种一眼AI的感觉。

相反的，Seed 2.1 Pro做出来的PPT，真的是可以直接拿来用了。

当然，SVG图也是不在话下的。

一张乱表，秒做数据分析

这类任务表面上是算数，实际上测的是三件事，也就是表格理解、异常识别、业务解释。

我们的Prompt如下：

你是一名互联网产品数据分析师。下面是一组模拟的AI办公产品近8周数据，包括新增用户、活跃用户、付费转化、使用次数、平均任务完成时长、用户投诉率。请完成： 1、判断整体增长趋势； 2、找出至少3个异常点，并说明可能原因； 3、计算每周付费转化率、任务完成效率变化； 4、给产品负责人写一段300字以内的业务结论； 5、输出一个适合放进PPT的图表方案，包括图表类型、横纵轴、重点标注； 6、最后给出下一步要验证的3个问题。数据如下： Week,新增用户,活跃用户,付费用户,任务调用次数,平均完成时长/分钟,投诉率 W1,12000,6800,420,31000,7.8,2.1% W2,13800,7600,510,35500,7.2,2.0% W3,15100,8300,630,40200,6.9,1.8% W4,17800,9200,790,51000,6.4,1.7% W5,22000,10100,810,69000,8.1,3.4% W6,24600,13200,1180,88000,6.0,1.9% W7,26300,14600,1410,103000,5.7,1.6% W8,30100,16900,1760,129000,5.2,1.4%

和做PPT类似，Seed 2.1 Pro在运行完自己制定的Todo list后，甩出了一份生成的文件清单：

生成的Word分析报告，是带好排版、有图表分析的：

数据是在Excel被整理好的：

方便，着实是方便。

以后这种需要各种格式、各种模态一起输出的工作，真的可以放心交给AI了。

截图直接变PRD

除了用Seed 2.1 Pro的API来实测之外，我们还提前拿到了豆包办公任务模式的内测资格。

据说这个模式背后的模型，正是Seed 2.1 Pro：

经实测，我们发现刚才用API能做的事情，办公任务模式也是基本都能hold住。

例如Coding能力，就可以直接做一个任务指挥塔：

做出来的PPT甚至是自带备注的：

而整体实测下来，用豆包APP上的办公任务模式比较方便的一点，就是传文件，直接鼠标拖拽一下就好。

例如我们直接在网页中截取一个界面：

这就比较考验Seed 2.1 Pro的视觉理解、多模态推理和产品化表达能力了。Prompt是这样的：

请仔细阅读这张产品截图，把它当作一款AI Agent工作台的首页。请完成： 1、识别页面中所有主要功能区，并说明它们分别解决什么问题； 2、指出这个页面在信息架构、交互路径、视觉层级上的5个问题； 3、基于截图，写一份产品改版PRD，包含：背景、目标用户、核心问题、改版目标、功能需求、验收标准； 4、额外给出一版更清晰的页面布局草图，用文字描述即可； 5、不要编造截图里不存在的按钮或信息。