凌晨两点,某大厂HR还在给郭达雅发消息。这不是八卦,是2026年初AI人才市场的真实切片——一个从DeepSeek出来的年轻人,让阿里、腾讯、百度、字节四家巨头同时下场竞价。最终字节胜出,开出的价码据传接近亿元年包。字节副总裁后来否认了数字,但没否认这笔交易本身。问题变成了:字节到底在买什么?

一、字节的多模态很强,但有三块地板是空的

打开网易新闻 查看精彩图片

先说字节的优势。Seedance 2.0在视频生成排行榜上拿过第一,吴永辉、周畅、郁博文、蒋路这些名字陆续加入后,字节的多模态体系已经完整。这是明牌。

但翻开Seed 2.0的测试成绩单,三个方向的短板暴露得很清楚。

第一,科学推理和开放知识。AIME、HMMT、IMOAnswerBench这些竞赛题,Seed 2.0确实站到了全球第一梯队。但换到GPQA Diamond和SuperGPQA,它落后于GPT-5.2和Gemini 3 Pro。更刺眼的是SimpleQA Verified和FactScore——这类测事实准确性的指标,Seed 2.0和Google、OpenAI、Anthropic的高端模型还有明显距离。

竞赛解题强,不代表知识稳健。长链条的科学判断、"知道自己不知道什么"的能力,Seed 2.0差火候。

第二,真实软件工程能力。Codeforces和LiveCodeBench v6上,Seed 2.0表现不差。但SWE-Bench Verified上,Claude Opus 4.5得分80.9%,GPT-5.2得分80.0%,Seed 2.0 Pro的第三方实测成绩只有76.5%,没进前十。Terminal Bench 2.0、Multi-SWE-Bench、SWE-Bench Pro、SWE-Evo、Aider Polyglot这些更接近真实开发和长期维护的测试,排名都不高。

第三,Agent的长期执行能力。BrowseComp、BrowseComp-zh、DeepSearchQA上,Seed 2.0的搜索和信息整理能力确实突出。但换成MCP-Mark、VitaBench、SWE-Evo、SWE-Bench Pro这类考验多工具组合、真实终端操作、复杂工程能力的基准,表现就下滑了。

Agent最难的不是单点能力,是连续理解目标、拆解任务、调用工具、写代码、验证结果、失败后修正路线的完整链条。错一步,全塌。

字节有眼睛(多模态)、有入口(抖音/飞书)、有场景、有算力和工程组织。它缺的是把代码智能、数学推理、强化学习后训练和Agent执行连成一条线的人。

二、郭达雅不是"代码专家"四个字能概括的

外界容易把郭达雅标签化为"代码大模型专家"。这个标签没错,但窄了。

他的研究核心可以总结为:让模型理解代码有语法、有数据流、有调用关系、有上下文,还有可被执行和验证的结果。这不是单纯的代码生成,是建立模型与结构化知识之间的深度映射。

2024年1月,郭达雅作为第一作者发布DeepSeek-Coder系列,覆盖1.3B到33B参数。这个系列在多项基准测试中登顶当时开源代码模型的SOTA,不仅能理解复杂代码逻辑,还能高效生成高质量代码。

但DeepSeek-Coder的真正价值在于方法论验证——从数据构建、模型训练到能力评估的完整闭环。这是可以迁移的底层能力。

一个月后,郭达雅主导DeepSeek-Math研发。项目以DeepSeek-Coder-Base-v1.5 7B为基础,针对数学能力继续训练,额外使用了120B数学相关token。更关键的是论文中提出的GRPO算法:让模型对同一问题生成多个答案并相互比较学习,大幅降低训练成本。

GRPO后来被应用到DeepSeek-R1的训练中,成为R1推理能力飞跃的核心技术。R1的训练成本因此低至29.4万美元。

从Coder到Math再到R1,郭达雅参与的是一条完整的技术演进路线。代码能力迁移到数学推理,数学推理的训练方法迁移到通用推理。这种技术迁移和体系化能力,正是字节Agent战略最需要的拼图。

三、2026年初的组织整合,指向同一个方向

字节不是临时起意。2026年初,它启动了针对Agent和Coding的组织整合。梁汝波在全员会上明确:2026年的重中之重是AI模型能力做到行业前列。

具体动作很密集:Trae从内部工具独立拆分SOLO,扣子平台升级到2.5版本。这些不是孤立的产品迭代,是在为Agent时代重建研发体系。

郭达雅加入后的职位是Seed Agent方向负责人之一。这个方向他从博士期间就开始研究,在DeepSeek积累的经验可以直接迁移。

字节买的不是一个人,是一套经过验证的技术体系:代码预训练的方法论、数学推理的强化学习框架、GRPO这类降低训练成本的关键算法,以及从专项模型到通用模型的完整演进经验。

四、Agent的脏活累活,才是真正的护城河

多模态的问题一眼能发现——狗画成猫,用户立刻吐槽。Agent不一样,它的失败藏在繁琐无聊的步骤里。

以SWE-Bench Verified为例。测试把真实GitHub项目的issue交给模型:读仓库、定位文件、修改代码、用原有测试验证补丁。没有炫技,全是工程脏活。

理解错issue,改得越多越偏。找对文件但漏了边界条件,测试过不了。只修当前报错又引入回归,也算失败。中间错一步,任务全塌。

这种能力无法通过堆数据或加算力速成。它需要模型具备长链路自洽、可执行验证、错误后修正的系统性能力——恰好是郭达雅研究的核心。

字节的多模态已经全球领先,但Agent时代的竞争规则不同。谁能把代码智能、数学推理、强化学习后训练连成一条可复用的技术链条,谁才能在复杂工程场景中不犯错、能回滚、可验证。

郭达雅的价值,在于他已经在DeepSeek跑通了这条路。字节用接近亿元的年包(或 whatever 实际数字),买的是时间——跳过从零摸索的阶段,直接进入体系化建设。

这笔交易的真正考验在半年后:Seed Agent能不能在SWE-Bench Verified这类真实工程基准上追平Claude和GPT,将决定字节是否买到了真货。