打开网易新闻 查看精彩图片

又是字节,这几天节奏很明显,几乎天天整大活。

当很多网友还沉浸在 Seedance 2.0 “一分钟生成好莱坞大片”的震撼里,结果字节转头又把大模型底座升级了。

余波未散,豆包上线专家模式,接入豆包大模型 2.0 Pro。

打开网易新闻 查看精彩图片

很多人第一反应是:又一次版本号升级?

但这次升级,豆包直接从一个“对话模型”变成了一个“原生多模态通用模型”。

简单来说,它不再只是接收文字、给出文字,而是能处理图像、视频、文档这些复杂输入,并在此基础上做推理和持续执行任务。

打开网易新闻 查看精彩图片

能力打开之后,使用场景也分得更清晰。高强度推理、复杂多模态任务,用 Pro。成本敏感、高并发场景,用 Lite 或 Mini。开发者需要深度代码能力,直接用 Code。

打开网易新闻 查看精彩图片

OpenAI 的思路类似,主模型保持综合能力稳定,代码单独优化,不让所有能力互相牵制。

但“能处理多模态”只是门槛,真正关键的是:有没有理解能力。

面对复杂内容,它不是只做识别,而是能还原结构;不是只看表层信息,而是能串起内在逻辑。

打开网易新闻 查看精彩图片

这种结构理解,直接体现在长链路问答上。

目前,实测下来,豆包 Seed 2.0 连续追问、回溯前文、交叉验证整体稳定性已经接近 GPT-5.2 的水准。在国产网络环境下,响应链路反而更顺一些。

Gemini 3 Pro 对比时,它的优势也不在单轮正确率,而在连续深挖下不容易前后矛盾。不是一两轮碰巧答对,而是追问下去依然能保持逻辑一致。

打开网易新闻 查看精彩图片

但问答只是结果,底层决定上限的是检索能力。

很多人觉得 GPT-5.2 thinking 搜索强,是因为模型聪明。但另一半原因,是数据源质量和筛选机制更成熟。来源干净、整合克制,幻觉概率自然低。

国内搜索环境相对复杂,低质内容比例不低。像 CSDN搜狐、百家号这类平台里,优质内容存在,但噪音也多。过滤机制如果不够强,模型再有推理能力,也可能被带偏。

所以搜索能力不是单点突破,而是三件事叠加:模型推理能力、数据源质量、信息过滤机制。

这次老狐专门问了几个偏冷门问题,比如某个细分行业政策调整时间线,再追问政策之间的逻辑差异。

打开网易新闻 查看精彩图片

Seed 2.0给出的答案结构清晰,而且整合信息的逻辑是自洽的。不是拼凑段落,而像是真的“查完再整理”。

如果这种稳定性能持续,国内环境下终于有一个可以放心查资料的模型。

打开网易新闻 查看精彩图片

这次让老狐真有点“眼前一亮”的,是它对非结构化文档的理解。

要知道,很多公司大量信息都埋在 PDF、截图、扫描件里。以前怎么搞?
先 OCR,一顿识别,再清洗结构,字段对不上还得人工校一轮。

打开网易新闻 查看精彩图片

流程又长又脆,谁做谁知道。

现在是,它可以直接“看懂”文档结构,再在这个基础上抽取关键信息。中间少了好几道工序。

扫描件歪一点、版式乱一点,也不至于直接报废。它不只是把字读出来,而是能抓住关键字段在哪、上下文是什么。

打开网易新闻 查看精彩图片

说白了,这真是打工人的福音。谁用不得感慨一句,真的香呀!

再说到 Code 版本,这次明显是不是简单加强“代码生成”,而是往真实开发流程去贴。

有网友用截图让它复刻一个前端页面,并补上基础交互动效。

打开网易新闻 查看精彩图片

测试过程里,它没有简单堆样式,而是先拆页面结构,再生成组件和逻辑代码。

后续再改需求,比如调整布局、增加按钮行为,它也能在原有代码基础上继续修改,而不是每次重写一版。

在前面聊完多模态理解、长链路稳定性和检索能力之后,其实还有一个更现实的问题:怎么落地。

价格策略本身,就在回答这个问题。

Pro 和 Lite 的定价,很明显不是冲着“秀能力”去的,而是冲着规模化部署。高强度推理给到 Pro,成本敏感、高并发场景用 Lite,把不同需求拆开算账。

打开网易新闻 查看精彩图片

长链路推理的成本一旦降下来,企业采用门槛会迅速下降。模型能力是一层,但真正决定长期竞争力的,是算力、云和基础设施。

字节通过火山引擎做能力闭环,其实是在搭一整套 AI 生产系统,而不是押一个单点爆款模型。可以说,这不是某个功能升级,而是体系在成型。

去年我们还在讨论国产模型能不能追上,今年讨论的已经是谁在第一梯队。

新的一年,希望国产模型更强一点,我们用户效率也高一点。

参考资料:

豆包、沃垠AI等等

编辑:不吃麦芽糖

打开网易新闻 查看精彩图片