金磊 发自 凹非寺
量子位 | 公众号 QbitAI
就在刚刚,又一个新版国产模型来了。
这次的主角是字节——Seed 2.1系列。
△火山引擎总裁,谭待
这个版本一共包含2个模型,分别是Doubao-Seed-2.1-Pro和Doubao-Seed-2.1-Turbo,并且API服务已全量上线火山方舟。
那么这个新模型到底什么水平?
火山引擎便放出了一个很直观且有feel的案例:
视频地址:
https://mp.weixin.qq.com/s/Q4UufKRH4-BTlA3mRE7Uvg
视频演示的是芯片设计行业里非常严谨的RTL环节,会细节到每个寄存器和信号线在每个时钟周期里怎么流动都得说清楚。
这个工作量基本上得3-5名人类工程师花数周时间才能搞定。
而Seed 2.1 Pro围绕一个16×16 PE的Tiny NPU Tile,连续运行近18个小时,经历9轮迭代,最终完成了6个核心模块、1303行RTL代码!
再来看下榜单评分的表现。
以贴近真实终端编程环境的Terminal Bench 2.1为例,Seed 2.1 Pro已经做到了基本上能和Claude Opus 4.7持平;在科学计算代码评测SciCode上,Seed 2.1 Pro甚至超过Opus 4.7和GPT-5.5。
并且像工具调用的MCP-Atlas评测,Seed 2.1 Pro同样是超过了Opus 4.7和GPT-5.5。
在六月新鲜出炉的Agents’ Last Exam(ALE,覆盖13个行业集群、1000多项高经济价值真实任务)基准评测中,Seed 2.1 Pro已经处于当前参评模型的第一梯队水平。
还有一个非常实在的亮点,那就是价格。
因为Seed 2.1 Pro在能力跟国外头部AI做到比肩的同时,价格还仅仅是1/4(以Opus 4.6-4.8为例):
并且放眼国内玩家,Seed 2.1 Pro也是具备一定优势:
每百万Token输入价格为6元、输出价格为30元、缓存命中条件下只需要1.2元。
并且根据火山引擎总裁谭待的介绍,豆包日均Token的使用量已经突破180万亿!
那么把豆包最新模型丢到实实在在的工作环境,它的效果到底如何?
老规矩,一波实测走起~
把Seed 2.1 Pro扔进一天的工作流
先说下测试环境。
我们这次主要在OpenCode中调用Seed 2.1 Pro API完成。
也就是把它放进一个更接近Claude Code、Codex的开发者环境里,看它面对长Prompt、代码生成、文件型交付和结构化报告时,能不能真正把任务跑下来。
第一个任务,我们直接上强度:
生成一个完整的3D房屋
我们给Seed 2.1 Pro的Prompt是这样的:
请在当前目录创建一个单文件WebGL2项目,只生成一个index.html,不要创建其它文件。 目标:实现一个可以在浏览器中直接运行的3D房屋展示,类似一个完整的郊区别墅/住宅模型。要求结构完整、体积可信、可交互导航,并且全部代码都写在index.html里。 硬性要求:1. 只允许一个index.html文件。2. 不允许使用Three.js、Babylon.js、React、Vue、外部CDN、图片、字体、glTF模型或任何外部资源。3. 必须使用原生WebGL2。4. 浏览器打开index.html后即可运行。5. 页面中必须有一个完整的3D房屋场景,而不是简单盒子。6. 必须支持交互导航: - 鼠标左键拖拽旋转视角; - 鼠标滚轮缩放; - WASD移动视角或平移; -R键重置视角。7. 代码要有基本结构,不要堆成不可维护的一团。 房屋细节要求: - 主体房屋至少包含两层体量; - 有多段坡屋顶,屋顶不能只是一个平板; - 有正门、门廊、台阶; - 有多个窗户,窗户要有窗框和玻璃材质; - 有车库门; - 有烟囱; - 有草坪、车道、小路; - 有树、灌木、路灯等简单环境元素; - 有基础光照、阴影感或明暗层次; - 有天空背景或渐变背景; - 整体风格偏温暖、干净、低多边形但精致。 技术实现建议: - 自己写WebGL2初始化、shader、矩阵变换、相机控制; - 封装createBox、createRoof、createWindow、createDoor、createTree等函数; - 可以用立方体、三棱柱、简单几何体组合出房屋; - 使用简单材质颜色和法线光照; - 尽量保证代码可读,必要处写注释。 交付要求:1. 创建并写入index.html。2. 完成后告诉我如何在本地打开。3. 如果你认为某些功能风险较高,优先保证能稳定运行,再做视觉增强。
这类任务有意思的地方在于,它同时测了几件事:
模型能不能理解复杂需求,能不能把3D图形拆成可执行的几何结构,能不能在没有外部库的情况下,把WebGL渲染、相机控制、光照、材质、交互都写出来,以及能不能在OpenCode里根据结果继续迭代。
在稍等片刻过后,一个3D房屋就诞生了:
但有一说一,第一版的效果还是比较简陋,因此我们在上一轮的基础上,继续做优化。
我们再给到Seed 2.1 Pro这样的Prompt:
当前index.html已经可以运行,但视觉效果比较简陋。请不要重写整个项目,而是在现有代码基础上增量优化。 任务目标:把当前原生WebGL2单文件3D房屋,从“简陋盒子模型”升级成“完整郊区别墅展示Demo”。 严格限制: 1. 只能修改当前index.html。 2. 不要新增任何文件。 3. 不要引入Three.js、Babylon.js、外部CDN、图片、字体、模型或任何外部资源。 4. 必须继续使用原生WebGL2。 5. 不要破坏当前已经能运行的状态。 6. 优先保持稳定运行,再增强视觉。 请重点优化以下内容: 一、房屋结构 - 当前房子如果太简单,请拆成至少三个主体体块:左侧二层主体、中间入口体块、右侧车库体块。 - 屋顶要从单一屋顶升级为多段坡屋顶,包括主屋顶、入口小屋顶、车库屋顶。 - 屋顶需要有屋檐、屋脊、边缘线条,避免看起来像简单三角块。 - 增加烟囱,并让烟囱位置合理。 二、正面细节 - 正门要更精致:门框、门把手、门上小窗、门前台阶。 - 增加门廊:两根柱子、小屋檐、门前灯。 - 增加多个窗户:每个窗户需要窗框、横竖分割线、玻璃颜色和轻微高光。 - 车库门要有分格线和边框,不要只是一个大色块。 - 增加墙面装饰线条,例如底部踢脚线、窗台、檐口线。 三、庭院环境 - 增加前院草坪。 - 增加从车库延伸出来的车道。 - 增加从正门到画面前方的小路。 - 增加2棵树、几簇灌木、花箱、邮箱或长椅。 - 增加庭院灯,放在小路两侧或车道旁。 四、视觉效果 - 默认视角要正对房屋,略微俯视,能看到正门、车库、屋顶和前院。 - 色彩改成温暖、干净、低多边形但精致的风格。 - 增强光照方向感,让屋顶和墙面有明暗层次。 - 背景用天空渐变,不要纯黑或纯白。 - 地面不要太空,加入远处轻微起伏或简单背景元素。 五、代码要求 - 保留现有相机控制和交互。 - 尽量复用现有draw/create函数。 - 如果需要新增函数,请保持命名清晰,例如addHouseBody、addRoof、addWindow、addGarage、addTree、addShrub等。 - 修改完成后,请检查明显的JS语法错误、shader错误和WebGL2初始化错误。 完成后简要告诉我: 1. 你主要增强了哪些视觉元素; 2. 本地如何运行; 3. 如果还有下一步优化,建议优化什么。
在优化的过程中,我们不难发现,Seed 2.1 Pro不会只一次性地去生成代码,它会有一个逐行代码再检查的过程:
在第二轮优化之后,3D房屋的效果就变成了这样:
在经过一次优化迭代之后,3D房屋的效果要比第一次更加柔和且细粒度了一些。
以此类推,再经过Seed Pro 2.1一次优化迭代之后(提出更加细节的Prompt),我们便得到了最终的成品:
直接生成一个可用的PPT
虽然这个任务看着像在用开发者工具里做PPT,但这也刚好能体现同一个API既能搞开发,也能做汇报工作。
然后这次我们给Seed 2.1 Pro的Prompt是这样的:
你是一名科技产业分析师兼PPT设计师。请基于网络搜集的材料,帮我设计一份10页中文汇报PPT,主题是《AI Agent进入企业生产系统的三个信号》。 要求:1、先给出10页PPT的完整目录;2、每一页都要包含:页面标题、核心结论、3个以内要点、建议使用的图表或视觉结构;3、至少设计3页强视觉页面,例如产业链地图、能力演进时间轴、竞争格局象限图;4、语言要像科技媒体给企业高管做汇报,短句、抓重点,不要PR腔;5、最后额外输出一张“核心逻辑总览图”的SVG代码,要求可以直接复制到浏览器渲染。
同样的,Seed 2.1 Pro依旧是在分析完任务需求之后,给自己制定了Todo list,然后按照计划一步一步地执行:
在片刻过后,刚才我们Prompt里提到的所有文件,就这么水灵灵地一口气诞生了:
我们先来看下PPT的效果:
和以往AI做PPT感触很不一样的一点是,这次不论是内容,还是设计感,已经没有那种一眼AI的感觉。
相反的,Seed 2.1 Pro做出来的PPT,真的是可以直接拿来用了。
当然,SVG图也是不在话下的。
一张乱表,秒做数据分析
这类任务表面上是算数,实际上测的是三件事,也就是表格理解、异常识别、业务解释。
我们的Prompt如下:
你是一名互联网产品数据分析师。下面是一组模拟的AI办公产品近8周数据,包括新增用户、活跃用户、付费转化、使用次数、平均任务完成时长、用户投诉率。 请完成: 1、判断整体增长趋势; 2、找出至少3个异常点,并说明可能原因; 3、计算每周付费转化率、任务完成效率变化; 4、给产品负责人写一段300字以内的业务结论; 5、输出一个适合放进PPT的图表方案,包括图表类型、横纵轴、重点标注; 6、最后给出下一步要验证的3个问题。 数据如下: Week,新增用户,活跃用户,付费用户,任务调用次数,平均完成时长/分钟,投诉率 W1,12000,6800,420,31000,7.8,2.1% W2,13800,7600,510,35500,7.2,2.0% W3,15100,8300,630,40200,6.9,1.8% W4,17800,9200,790,51000,6.4,1.7% W5,22000,10100,810,69000,8.1,3.4% W6,24600,13200,1180,88000,6.0,1.9% W7,26300,14600,1410,103000,5.7,1.6% W8,30100,16900,1760,129000,5.2,1.4%
和做PPT类似,Seed 2.1 Pro在运行完自己制定的Todo list后,甩出了一份生成的文件清单:
生成的Word分析报告,是带好排版、有图表分析的:
数据是在Excel被整理好的:
方便,着实是方便。
以后这种需要各种格式、各种模态一起输出的工作,真的可以放心交给AI了。
截图直接变PRD
除了用Seed 2.1 Pro的API来实测之外,我们还提前拿到了豆包办公任务模式的内测资格。
据说这个模式背后的模型,正是Seed 2.1 Pro:
经实测,我们发现刚才用API能做的事情,办公任务模式也是基本都能hold住。
例如Coding能力,就可以直接做一个任务指挥塔:
做出来的PPT甚至是自带备注的:
而整体实测下来,用豆包APP上的办公任务模式比较方便的一点,就是传文件,直接鼠标拖拽一下就好。
例如我们直接在网页中截取一个界面:
这就比较考验Seed 2.1 Pro的视觉理解、多模态推理和产品化表达能力了。Prompt是这样的:
请仔细阅读这张产品截图,把它当作一款AI Agent工作台的首页。 请完成: 1、识别页面中所有主要功能区,并说明它们分别解决什么问题; 2、指出这个页面在信息架构、交互路径、视觉层级上的5个问题; 3、基于截图,写一份产品改版PRD,包含:背景、目标用户、核心问题、改版目标、功能需求、验收标准; 4、额外给出一版更清晰的页面布局草图,用文字描述即可; 5、不要编造截图里不存在的按钮或信息。
从体感上来看,在豆包办公任务模式里,它更像一个面向普通用户的办公Agent:
不用配环境,不用写代码,上传截图、输入任务,就能拿到一份可继续修改的PRD草稿。
这两种入口对应的用户完全不同,但也正如我们刚才提到的,背后用的都是Seed 2.1 Pro。
更关键的是,Seed 2.1 Pro不是只服务豆包一个入口。
据悉,它已经同步进入TRAE、TRAE WORK、扣子等字节系产品。
也就是说,同一个基座模型,一头连API和开发者,一头连TRAE这样的AI Coding工具,一头还将连豆包办公入口。
颇有一种一个大招打通任督二脉的感觉了。
不只是又发了个新模型
现在回头看Seed 2.1 Pro,它的核心变化,不只是模型分数又涨了。
过去国产基模的竞争,很多时候还停留在“聊天能力追没追上”“榜单分数高不高”。但Agent时代,用户更关心任务完成率:模型能不能连续理解上下文,能不能拆任务、执行任务、生成文件、看图、写代码,并且在关键节点知道交给人确认。
这也是为什么“生产级可用”会成为这轮模型升级的关键词。
生产级可用,不代表模型永远不出错,而是它的输出可以进入真实工作流,错误也能被发现、修改和追责。
从这个角度看,Seed 2.1 Pro这次的能力提升,和字节的产品入口结合在一起,意义会更大。
火山方舟面向开发者和企业API调用,豆包专业版承接办公生产力,TRAE和TRAE WORK切进AI Coding,扣子负责Agent应用搭建。同一个模型底座,覆盖了个人办公、开发者工具和企业Agent应用几条关键路径。
这和单纯发布一个模型很不一样。
模型能力本身会被追赶,真正难的是把模型放进高频场景里,让用户每天打开、每天调用、每天产生新的反馈。字节的优势,也正在这里。
它有C端豆包,有开发者工具TRAE,有Agent搭建平台扣子,还有火山方舟这样的企业级API入口。Seed 2.1 Pro如果能在这些入口里持续提升任务完成质量,它争夺的就不只是模型榜单,还有Agent时代的生产入口。
当然,也要客观看。
从这次实测看,Seed 2.1 Pro已经能在API和产品入口两端产出相当完整的工作底稿,但还不能完全脱离人工审核。数据分析会出现细节不一致,PPT里的行业数据需要核验,代码项目离生产系统还有工程距离,截图PRD也无法替代真实用户研究。
所以它现在最适合的位置,是“第一生产力助手”:先把70%的粗活干完,再让人做最后30%的判断、校验和润色。
这已经足够改变很多工作流。
以前做PPT,要查资料、搭框架、画结构图、写讲稿。现在可以先让Seed 2.1 Pro出第一版,人再去校事实、调观点、改表达。
以前做3D项目,要搭环境、写渲染管线、拆几何体、调交互。现在可以先让它生成一个可跑版本,人再继续补工程细节和视觉质感。
以前做行业研究,要先把资料整理成表,再提炼判断。现在它已经能把表格、判断、风险提示一次性给出来。
OpenCode里的测试说明,它已经能进入更专业的开发者工作流;豆包办公任务模式里的测试,则说明它也在向普通办公人群靠近。
前者考验模型执行力和长程任务稳定性,后者考验产品体验和任务封装能力。一个模型要真正走向生产级可用,这两件事缺一不可。
过去我们测国产模型,常见问题是它会不会聊、分数高不高、有没有追上Claude。
不过讲点实在的,榜单还仅是入场券,工作流才是主战场。
Seed 2.1 Pro这次要证明的,也正是这件事。
One More Thing:
火爆全球的视频生成模型Seedance,这次也是升级到了2.5版本(仍在测试中,预计将在 7 月初正式上线)。
视频地址:
https://mp.weixin.qq.com/s/Q4UufKRH4-BTlA3mRE7Uvg
这一次,Seedance 2.5可以单次直出30秒视频,并且在长视频连贯性、复杂镜头控制和画质方面较上一版本有明显提升。
Seed 2.1 API接入地址:
[1]https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-2-1-pro
[2]https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-2-1-turbo
热门跟贴