这是苍何的第 496 篇原创!

大家好,我是苍何。

其实在早些时候,我就深度参与了豆包大模型2.0 的内测。

今天,终于,豆包大模型 2.0 正式发布了。

说实话,这次的升级幅度,属实把我整不会了。

先说结论:「豆包 2.0 Pro 全面对标 GPT 5.2 和 Gemini 3 Pro」

「人类最后的考试」HLE-Text 拿下 54.2 分最高分,ICPC 编程竞赛金牌,IMO 数学奥赛也是金牌。

打开网易新闻 查看精彩图片

好家伙,字节这是要掀桌子啊。

豆包 2.0,到底升级了啥

这次发布的是一整个系列,包含 Pro、Lite、Mini 三款通用 Agent 模型,外加一个专门搞代码的 Code 模型。

简单来说就是:

「豆包 2.0 Pro」,旗舰款,面向深度推理和长链路任务执行。

你可以理解为,它能像一个老练的员工一样,拆解复杂任务,一步步帮你搞定。

「豆包 2.0 Lite」,性价比之王,综合能力直接超越上一代主力豆包 1.8,成本还更低。

百万 tokens 输入价格才 0.6 元,这价格我服了。

「豆包 2.0 Mini」,专为低时延、高并发场景设计,适合需要快速响应的应用。

「豆包 2.0 Code」,基于 2.0 Pro 底座,专门针对编程做了深度优化。

不仅强化了代码库解读能力,还提升了应用生成能力,关键是增强了 Agent 工作流中的纠错能力。

讲真的,这个 Code 模型有个很牛的点:它自带视觉理解能力(VLM),是原生支持的,不是通过工具调用实现的。

后面我们也会放一个实测的复杂 case。

多模态能力,真的炸了

除了文本能力拉满,豆包 2.0 的多模态能力也全面升级了。

视觉推理、空间理解、长上下文理解,全面达到世界顶尖水平。

Pro 版本在大多数相关基准测试中直接拿了最高分。

打开网易新闻 查看精彩图片

特别是长视频理解这块,豆包 2.0 在大多评测上超越了其他顶尖模型。

它能做实时视频流分析、环境感知,甚至还能做主动纠错和情感陪伴。

这意味着什么?意味着它不仅能「看懂」视频,还能基于理解做出判断和反馈。

后面我会用实际 case 展示这个能力到底有多强。

目前,豆包 2.0 Pro 已经在豆包 App、电脑端和网页版上线了,选择「专家」模式就能体验。Code 模型则接入了字节的 AI 编程产品 TRAE。

实测一:AI 象棋教练,教我儿子下象棋

光看数据没意思,直接上手测。

第一个 case,我用豆包 2.0 做了一个「AI 象棋教练」。

起因是我家小朋友最近迷上了下象棋,但他水平嘛,怎么说呢,就是那种炮还没过河就开始送的水平。

我想着能不能让 AI 来辅导他?

于是我利用豆包 2.0 Pro 的视觉理解能力(VLM),做了这么一个东西:

拿手机拍一张当前棋盘的照片,直接丢给豆包 2.0,它能识别出棋盘上每个棋子的位置,然后告诉你下一步该怎么走。

整个我是在 Trae 中使用的 Doubao-Seed-2.0-Code

打开网易新闻 查看精彩图片

做出的效果我录了一个视频,大家可以感受一下。

你没听错,它真的能「看懂」象棋棋盘。

不仅能识别出红方黑方各有哪些子,还能分析当前局势,给出具体走法建议。

甚至会告诉你为什么要这么走。

比如它会说:「当前红方车在 e1 位置,建议走车到 e7 吃掉黑方的卒,同时形成对黑方将的威胁。」

说实话,识别准确率比我预期的高很多。

一些比较复杂的残局,它也能给出靠谱的建议。

当然偶尔也会有小错误,但当一个入门级的象棋教练完全够用。

我儿子现在下棋之前都要先问一句:「爸爸,让 AI 看看我该走哪。」

麻了,这小子对 AI 的信任度比对我还高。

这个 case 主要体现的是豆包 2.0 的 VLM 能力,也就是视觉语言模型的能力。它能准确理解图片中的复杂信息,并给出有逻辑的分析和建议。

实测二:AI 视频混剪,精彩片段自动剪辑

第二个 case 更硬核,我用豆包 2.0 做了一个视频智能混剪的 Agent。

这个就更能体现豆包 2.0 的长视频理解能力和 Agent 长上下文能力了。

场景是这样的:你有一个几十分钟甚至几小时的长视频素材。

比如一场比赛、一次直播回放或者一部纪录片,你想从中找出最精彩的片段做一个混剪。

以前怎么做?你得自己一帧一帧看,手动打点,费时费力。

现在用豆包 2.0,直接把视频丢给它,让它帮你分析。

它能理解整个视频的内容和节奏,自动识别出高潮片段、精彩瞬间、情感转折点。

然后帮你把这些片段提取出来,按逻辑组合成一个混剪视频。

整个过程就是一个 Agent 工作流:

  1. 先让模型理解整个长视频的内容

  2. 分析出哪些片段是精彩的、有看点的

  3. 按照时间轴标记出这些片段的起止时间

  4. 最后调用剪辑工具完成混剪

这里面最难的其实是第一步和第二步。

要理解一个几十分钟的视频,模型需要有强大的长上下文处理能力。

而且它不是简单地识别画面,还要理解情节发展、情绪变化、节奏快慢。

豆包 2.0 在这方面表现得相当不错。

它确实能抓住视频中那些让人「眼前一亮」的瞬间,而不是随便给你截几个画面。

比如我把长达 2 小时之前罗永浩和豆包对话的视频进行了混剪。

打开网易新闻 查看精彩图片

它先理解视频,分析哪些是亮点:

打开网易新闻 查看精彩图片

然后提取所有豆包相关精华片段。

打开网易新闻 查看精彩图片

最后自主调用相关工具进行剪辑:

打开网易新闻 查看精彩图片

然后调用工具进行拼接:

打开网易新闻 查看精彩图片

最终的做出的效果如下:

在整个 Agent 工作流中,如果中间某个步骤出了问题,它还能自动纠错。

重新调整方案继续执行,不用你手动干预。

这个纠错能力,说实话是我在其他模型上很少看到的。

实测三,长视频转公众号文章

同样是刚才那个视频,我让豆包理解后,然后帮我输出成一篇公众号文章。

打开网易新闻 查看精彩图片

这是我给的 prompt:

请分析这个视频,重点关注罗永浩和豆包的互动内容,提取精彩对话和互动细节。同时分析豆包展示的AI能力和背后的技术特点,包括但不限于自然语言处理、多模态交互、知识问答、逻辑推理等方面。请以结构化的方式输出结果,分为'罗永浩与豆包的精彩互动'和'豆包的AI能力与技术分析'两大部分。

可以看到它能自行调用工具及技能,先对视频解析理解,然后按照要求输出文章。

打开网易新闻 查看精彩图片

这是最终的结果,完全符合提示词的要求。

打开网易新闻 查看精彩图片

整体体验下来,豆包 2.0 给我的感觉就是两个字:全面。

文本推理拉满,多模态理解拉满,Agent 能力拉满,关键价格还很有诚意。

价格方面,豆包 2.0 Pro 的定价也很有诚意。32k 以内输入只要 3.2 元/百万 tokens,输出 16 元/百万 tokens。对比 GPT 5.2 和 Gemini 3 Pro,便宜了差不多一个数量级。字节这波,明显是想用性价比把市场打穿。

字节在大模型这块,确实是憋了一个大招。

这次 2.0 的发布,更像是一个从「量变到质变」的节点。

不管你是开发者想接 API 做应用,还是普通用户想体验最新的 AI 能力,都推荐去试试。

豆包 App 里选「专家」模式就是 2.0 Pro,搞代码的可以去 TRAE 里体验 Code 模型。

好了,今天就聊到这儿。

如果你也体验了豆包 2.0,欢迎在评论区聊聊你的感受,或者你还想让我测试什么场景,也可以留言告诉我。

我是苍何,我们下篇见。