大家好,我是冷逸。

今天,咱们接着奏乐接着肝。

前几天,带大家陆续体验了、、等模型。今天,我们来聊下豆包大模型2.0(Doubao-Seed-2.0)。

一句话介绍:豆包大模型2.0是一个多模态理解能力全面升级的基础模型,提供了Pro、Lite、Mini三款多模态通用模型,和专门面向开发者的Code模型。

目前,Seed 2.0 Code 模型已经可以在TRAE中使用。

打开网易新闻 查看精彩图片

这是豆包大模型2.0 Pro在公开测试集上的表现。

打开网易新闻 查看精彩图片

视觉理解方面,基本与Gemini 3 Pro不相上下。尤其是在空间理解、运动理解、视频理解和图表理解上,表现不俗。

同时,还发布了79页的Model Card。

打开网易新闻 查看精彩图片

Model Card:

https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/seed2/0214/Seed2.0%20Model%20Card.pdf

打开网易新闻 查看精彩图片

一手实测

这次,Doubao-Seed-2.0一共发了4个版本。

包括Pro、Lite、Mini三款通用Agent模型和一款Code模型。

打开网易新闻 查看精彩图片

  • Pro面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro;

  • Lite兼顾性能与成本,综合能力超越豆包1.8;

  • Mini面向低时延、高并发与成本敏感场景,性能媲美豆包1.6 Pro;

  • Code则是专为编程场景打造,与Trae使用效果更佳。

Seed 2.0 Code,是基于2.0 Pro底座,专门针对编程场景进行优化的Coding模型,也是我们今天测试的主角。

测试平台主要是在TRAEClaude Code

1)前端:视觉理解

随便给了它张截图,让它复刻这个网页,并实现眼珠随鼠标转动的效果。

打开网易新闻 查看精彩图片

不一会儿,它就写好了,高度还原截图的背景色、卡片布局和大眼睛的UI,交互动画也做出来了。

打开网易新闻 查看精彩图片

左边是Trae窗口,右边是网页结果

再来一个,我喂给它一张Transformer架构图,让它做一个动画演示网页,给大家科普Transformer架构。

打开网易新闻 查看精彩图片

来看下结果。

打开网易新闻 查看精彩图片

对架构图的理解还挺准确的,编码器、解码器都有,而且做了个SVG动画里演示整个Transformer工作流程。

这个倒有点出乎我的意料,因为它不是完全复刻,而是要先理解架构图的逻辑,再来写代码演示整个过程。这对模型的推理要求,其实挺高的。

在官方demo中,我还看到了一个很有意思的case。

先给到几张x-y-z坐标的静态数据图,然后让模型生成匹配的matplotib Python代码。

打开网易新闻 查看精彩图片

Seed 2.0 Code直接生成了一个3D坐标网页,对图表的理解和还原非常。

我感觉,今后用这个模型来做图表转代码,非常方便。

2)3D:逆向魔方

逆向魔方这个Case,我做了很多测试了,目前能跑出来的模型,屈指可数。

包括豆包上一代模型Seed 1.8,都跑不出来。

提示词:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself. 
中文:创建一个HTML文件,其中使用Three.js(通过CDN方式引入)来实现一个功能完备的3D魔方模拟程序。该魔方必须能够自动完成自己的“解谜”过程。

但这次Seed 2.0 Code一次出。

打开网易新闻 查看精彩图片

打乱后,能够100%还原。

能记住打乱过程的所有步骤,自动还原时会以相反的顺序和相反的方向执行这些步骤。

3)长任务:AI庙会

下面这个Case(by官方),并非One short直出,而是迭代了几次才出来。

这也符合我们真实的开发环境,没有任何开发是一句话生成的,都需要与模型对话修改、调试,才能出真正能用的产品。

这是一个比较复杂的“AI春节庙会”web游戏,开发者通过TRAE+Seed 2.0 Code,通过几轮提示词调整,就做出来了。

在这个庙会中,每个AI小人都拥有环境感知、认知推理和记忆系统,能够自主产生连贯行为、社交互动,并进行真实的生活与任务流程。

像极了“中国新春版”的斯坦福小镇。

4)Agentic任务:文章转视频

这个Case的Prompt如下:

提炼这篇文章:https://mp.weixin.qq.com/s/8WfpTaQLOeilRRghEaiGTg,用Remotion Skills做一个视频,向大家展示Doubao Seed 2.0

除了考验模型的Coding能力外,还考验它的Agentic和工具调用能力,它需要自己浏览文章并提炼内容,然后调用Remotio Skills来制作视频,并最终把视频渲染出来。

打开网易新闻 查看精彩图片

我把这种视频叫做“HTML式视频”,最近对它爱不释手。

这是Seed 2.0 Code花了10来分钟,给我做的视频(BGM是我自己加的)。

效果还不错,就是UI这块跟顶级旗舰模型还有差距。

打开网易新闻 查看精彩图片

总结一下。

相较Seed 1.8,Seed 2.0在Coding上的表现超出我的预期。尤其是视觉理解和Agentic任务上,进步非常明显。

它不是简单的视觉识别,而是带推理的深度理解。有了视觉理解&Agentic的加持,可以让模型的使用场景更宽、更深。

当然,不足之处也有。譬如前端审美距离顶级模型还有差距,长链任务偶尔出现忘记需求的情况。这些,都是后期可以优化的方向。

但,瑕不掩瑜。国内能有这么强大的多模态模型,实属难得。

对了,最后我还写了一个新年烟花的网页,所有人都可以玩。

打开网易新闻 查看精彩图片

体验地址:

https://www.doubao.com/share/code/0d429f942f9bb8c0

祝大家新年快乐,马到功成!