字节抢郭达雅：亿元年包买的是Agent最后一块拼图|agent|代码|字节|算法|调用|郭达雅

凌晨两点，某大厂HR还在给郭达雅发消息。这不是八卦，是2026年初AI人才市场的真实切片——一个从DeepSeek出来的年轻人，让阿里、腾讯、百度、字节四家巨头同时下场竞价。最终字节胜出，开出的价码据传接近亿元年包。字节副总裁后来否认了数字，但没否认这笔交易本身。问题变成了：字节到底在买什么？

一、字节的多模态很强，但有三块地板是空的

先说字节的优势。Seedance 2.0在视频生成排行榜上拿过第一，吴永辉、周畅、郁博文、蒋路这些名字陆续加入后，字节的多模态体系已经完整。这是明牌。

但翻开Seed 2.0的测试成绩单，三个方向的短板暴露得很清楚。

第一，科学推理和开放知识。AIME、HMMT、IMOAnswerBench这些竞赛题，Seed 2.0确实站到了全球第一梯队。但换到GPQA Diamond和SuperGPQA，它落后于GPT-5.2和Gemini 3 Pro。更刺眼的是SimpleQA Verified和FactScore——这类测事实准确性的指标，Seed 2.0和Google、OpenAI、Anthropic的高端模型还有明显距离。

竞赛解题强，不代表知识稳健。长链条的科学判断、"知道自己不知道什么"的能力，Seed 2.0差火候。

第二，真实软件工程能力。Codeforces和LiveCodeBench v6上，Seed 2.0表现不差。但SWE-Bench Verified上，Claude Opus 4.5得分80.9%，GPT-5.2得分80.0%，Seed 2.0 Pro的第三方实测成绩只有76.5%，没进前十。Terminal Bench 2.0、Multi-SWE-Bench、SWE-Bench Pro、SWE-Evo、Aider Polyglot这些更接近真实开发和长期维护的测试，排名都不高。

第三，Agent的长期执行能力。BrowseComp、BrowseComp-zh、DeepSearchQA上，Seed 2.0的搜索和信息整理能力确实突出。但换成MCP-Mark、VitaBench、SWE-Evo、SWE-Bench Pro这类考验多工具组合、真实终端操作、复杂工程能力的基准，表现就下滑了。

Agent最难的不是单点能力，是连续理解目标、拆解任务、调用工具、写代码、验证结果、失败后修正路线的完整链条。错一步，全塌。

字节有眼睛（多模态）、有入口（抖音/飞书）、有场景、有算力和工程组织。它缺的是把代码智能、数学推理、强化学习后训练和Agent执行连成一条线的人。

二、郭达雅不是"代码专家"四个字能概括的

外界容易把郭达雅标签化为"代码大模型专家"。这个标签没错，但窄了。

他的研究核心可以总结为：让模型理解代码有语法、有数据流、有调用关系、有上下文，还有可被执行和验证的结果。这不是单纯的代码生成，是建立模型与结构化知识之间的深度映射。

2024年1月，郭达雅作为第一作者发布DeepSeek-Coder系列，覆盖1.3B到33B参数。这个系列在多项基准测试中登顶当时开源代码模型的SOTA，不仅能理解复杂代码逻辑，还能高效生成高质量代码。

但DeepSeek-Coder的真正价值在于方法论验证——从数据构建、模型训练到能力评估的完整闭环。这是可以迁移的底层能力。

一个月后，郭达雅主导DeepSeek-Math研发。项目以DeepSeek-Coder-Base-v1.5 7B为基础，针对数学能力继续训练，额外使用了120B数学相关token。更关键的是论文中提出的GRPO算法：让模型对同一问题生成多个答案并相互比较学习，大幅降低训练成本。

GRPO后来被应用到DeepSeek-R1的训练中，成为R1推理能力飞跃的核心技术。R1的训练成本因此低至29.4万美元。

从Coder到Math再到R1，郭达雅参与的是一条完整的技术演进路线。代码能力迁移到数学推理，数学推理的训练方法迁移到通用推理。这种技术迁移和体系化能力，正是字节Agent战略最需要的拼图。

三、2026年初的组织整合，指向同一个方向

字节不是临时起意。2026年初，它启动了针对Agent和Coding的组织整合。梁汝波在全员会上明确：2026年的重中之重是AI模型能力做到行业前列。