大家好,我是冷逸。
今天,咱们接着奏乐接着肝。
前几天,带大家陆续体验了、、等模型。今天,我们来聊下豆包大模型2.0(Doubao-Seed-2.0)。
一句话介绍:豆包大模型2.0是一个多模态理解能力全面升级的基础模型,提供了Pro、Lite、Mini三款多模态通用模型,和专门面向开发者的Code模型。
目前,Seed 2.0 Code 模型已经可以在TRAE中使用。
这是豆包大模型2.0 Pro在公开测试集上的表现。
视觉理解方面,基本与Gemini 3 Pro不相上下。尤其是在空间理解、运动理解、视频理解和图表理解上,表现不俗。
同时,还发布了79页的Model Card。
Model Card:
https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/seed2/0214/Seed2.0%20Model%20Card.pdf
一手实测
这次,Doubao-Seed-2.0一共发了4个版本。
包括Pro、Lite、Mini三款通用Agent模型和一款Code模型。
Pro面向深度推理与长链路任务执行场景,全面对标GPT 5.2与Gemini 3 Pro;
Lite兼顾性能与成本,综合能力超越豆包1.8;
Mini面向低时延、高并发与成本敏感场景,性能媲美豆包1.6 Pro;
Code则是专为编程场景打造,与Trae使用效果更佳。
Seed 2.0 Code,是基于2.0 Pro底座,专门针对编程场景进行优化的Coding模型,也是我们今天测试的主角。
测试平台主要是在TRAE和Claude Code。
1)前端:视觉理解
随便给了它张截图,让它复刻这个网页,并实现眼珠随鼠标转动的效果。
不一会儿,它就写好了,高度还原截图的背景色、卡片布局和大眼睛的UI,交互动画也做出来了。
左边是Trae窗口,右边是网页结果
再来一个,我喂给它一张Transformer架构图,让它做一个动画演示网页,给大家科普Transformer架构。
来看下结果。
对架构图的理解还挺准确的,编码器、解码器都有,而且做了个SVG动画里演示整个Transformer工作流程。
这个倒有点出乎我的意料,因为它不是完全复刻,而是要先理解架构图的逻辑,再来写代码演示整个过程。这对模型的推理要求,其实挺高的。
在官方demo中,我还看到了一个很有意思的case。
先给到几张x-y-z坐标的静态数据图,然后让模型生成匹配的matplotib Python代码。
Seed 2.0 Code直接生成了一个3D坐标网页,对图表的理解和还原非常。
我感觉,今后用这个模型来做图表转代码,非常方便。
2)3D:逆向魔方
逆向魔方这个Case,我做了很多测试了,目前能跑出来的模型,屈指可数。
包括豆包上一代模型Seed 1.8,都跑不出来。
提示词:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself.
中文:创建一个HTML文件,其中使用Three.js(通过CDN方式引入)来实现一个功能完备的3D魔方模拟程序。该魔方必须能够自动完成自己的“解谜”过程。但这次Seed 2.0 Code一次出。
打乱后,能够100%还原。
能记住打乱过程的所有步骤,自动还原时会以相反的顺序和相反的方向执行这些步骤。
3)长任务:AI庙会
下面这个Case(by官方),并非One short直出,而是迭代了几次才出来。
这也符合我们真实的开发环境,没有任何开发是一句话生成的,都需要与模型对话修改、调试,才能出真正能用的产品。
这是一个比较复杂的“AI春节庙会”web游戏,开发者通过TRAE+Seed 2.0 Code,通过几轮提示词调整,就做出来了。
在这个庙会中,每个AI小人都拥有环境感知、认知推理和记忆系统,能够自主产生连贯行为、社交互动,并进行真实的生活与任务流程。
像极了“中国新春版”的斯坦福小镇。
4)Agentic任务:文章转视频
这个Case的Prompt如下:
提炼这篇文章:https://mp.weixin.qq.com/s/8WfpTaQLOeilRRghEaiGTg,用Remotion Skills做一个视频,向大家展示Doubao Seed 2.0
除了考验模型的Coding能力外,还考验它的Agentic和工具调用能力,它需要自己浏览文章并提炼内容,然后调用Remotio Skills来制作视频,并最终把视频渲染出来。
我把这种视频叫做“HTML式视频”,最近对它爱不释手。
这是Seed 2.0 Code花了10来分钟,给我做的视频(BGM是我自己加的)。
效果还不错,就是UI这块跟顶级旗舰模型还有差距。
总结一下。
相较Seed 1.8,Seed 2.0在Coding上的表现超出我的预期。尤其是视觉理解和Agentic任务上,进步非常明显。
它不是简单的视觉识别,而是带推理的深度理解。有了视觉理解&Agentic的加持,可以让模型的使用场景更宽、更深。
当然,不足之处也有。譬如前端审美距离顶级模型还有差距,长链任务偶尔出现忘记需求的情况。这些,都是后期可以优化的方向。
但,瑕不掩瑜。国内能有这么强大的多模态模型,实属难得。
对了,最后我还写了一个新年烟花的网页,所有人都可以玩。
体验地址:
https://www.doubao.com/share/code/0d429f942f9bb8c0
祝大家新年快乐,马到功成!