对话夸克 AI：首次揭秘，全国最大规模深度研究 Agent 落地方法论|agent|大规模|对话夸克ai|序列|算法

这个夏天，当 AI 的喧嚣仍在云端，有一款垂直 Agent 产品，在中国土壤上，却完成了一次最坚实的落地。

——不到一个月，生成超过 1000 万份深度研究报告，峰值时并行处理 250 万份复杂任务。

这个数字，像一记无声惊雷，从被主流 AI 视野忽视的场景角落炸响。

几乎以一种不容置辩的方式证明：当行业还在追逐通用 Agent 的上限时，已经有玩家在垂直领域的土壤里收获了果实，实现了场景化的超大规模验证。

而交出这份答卷的，正是夸克。

昨天，我有幸受邀参加了阿里夸克 AI 的闭门技术分享会——这是他们技术团队久违的一次亮相。

在那间刚刚结束高强度“战斗”，还保留着作战室氛围的房间里，与夸克算法负责人蒋冠军、高考算法负责人唐亮进行了一场深度对话，从第一视角，去复盘这个数字的诞生。

而复盘的主角，正是他们刚服务了数千万家庭的——高考志愿报告 Agent。

本文将基于这次深度交流，为你呈现这个目前国内最大规模 Deep Research 应用背后的产品逻辑、技术架构，以及带来夸克技术团队对 Agent 应用落地思考的首次对外分享。

智能表现：一个负责任、可信的深度决策型 Agent

在深入技术细节之前，我们必须先回答一个更本质的问题：高考志愿填报，究竟有多考验一个 Agent 的能力？

表面上看，高考志愿填报像是一件每年都在进行的常规事务：人人都得填，而且人人最终也都“填完”了。

但实际上，这是一个极其典型的“高复杂度、个性化”的 AI 决策场景。

想象一下这个画面：一个刚走出考场的学生，和他同样焦虑的家庭，手上仅握着一个决定未来数年人生轨迹的分数。

摆在他们面前的，是一个由近 3000 所高校、超过 2000 个专业构成的，庞大而又陌生的信息迷宫。

更何况在这些信息中，充斥着艰涩难懂的招生章程，也有真假难辨的就业前景分析，更有每年都在动态变化的录取规则与分数线。每一步，都因巨大的信息不对称，充满了决策陷阱。

考生和家长真正需要的，是一个能洞察这些信息，结合分数、兴趣、地域偏好、家庭期望，甚至是性格特点的、负责任、可信的个性化志愿填报方案。

换而言之，他们真的需要人手一个“张雪峰”。

这正是大多数高考信息检索工具的无力之处，也是夸克这款 Deep Research Agent 试图攻克的山峰

——像一个真正的专家那样，具备自主规划、执行、反思和调整的能力，为考生量身定制方案报告。

在与夸克技术团队的交流中，有两个落地细节让我印象深刻。它们恰好回答了 Agent 如何超越“工具”，成为真正的“决策专家”的问题。

1）当现实与用户需求冲突时，Agent 如何“策略性”思考？

用户的需求往往是模糊且理想化的，比如一位考生希望“倾向留在省内（广州、深圳优先），不考虑偏远地区”。

传统的工具只会严格执行筛选，结果往往不尽人意。但夸克的 Agent 展现了极具策略性的一面。

当考生倾向选择广东省内且要求985院校时，模型会自动理解用户所描述的意图，将需求拆解为有优先级的指令序列：“首先推荐广深高校，其次是省内其他城市，并排除偏远地区，对海量志愿信息进行筛选查询。”

更关键的是，当 Agent 发现优质选项受限时，它还会主动“反思调整”，放宽部分条件：

例如，将范围扩大至广东周边发达城市，或在高层次院校（如985）上适度放开地域限制，为考生争取更好的志愿机会。

我在模拟测试时，也触发了偏好地区的“稳”志愿候选不足的情况，夸克 AI 自行扩展了类似专业群志愿的分析流程

2）当用户需求与用户情况自相矛盾时，AI 如何处理？

另一个更能体现 Agent“专家”特质的，是它处理矛盾需求的能力。

“数学成绩差，但想报考计算机”，这类冲突性需求屡见不鲜。这往往源自考生对专业要求的理解不足，以及在信息有限的情况下，对“热门”专业的一种朴素向往。

常见的 AI 工具，可能会直接推荐一堆它认为分数合适的计算机专业，完成“概率最优”的匹配任务即可。

但这恰恰是“工具”和“专家”的分野所在。

夸克高考 Agent 在这种情况下，会触发一个名为“需求澄清”的流程，识别出考生分数与专业要求之间的潜在矛盾，并主动与用户沟通，指出这一选择可能存在的能力匹配问题。

注意，这只是类似场景下的其中 1 种情况。

其他如“我化学很好，但不想学化工相关专业”等等各类要求，在几千万次的 AI 志愿咨询中，相当五花八门，需要 AI 自行泛化理解用户意图中的矛盾，给出合适的引导。

这两个案例，正是夸克所追求的 Agent 具备的素养：

不仅是高效率的工具，还是能与人良好协作，理解、引导、甚至在关键时刻“温柔挑战”你的决策伙伴。

但具备这种专家式思考路径和策略调整的“深度研究 Agent”，并不能凭空产生。

它的背后，正是夸克团队在看不见的后台，于“数据”和“模型”这两个最核心的技术领域上，所付出的巨大努力。

深入后台：Agent 两大技术支柱，支撑千万报告生成

如果说用户侧的交互展现了夸克 Agent 的“智能表现”，那么深入后台，我们才能看到支撑这种智能的真正硬核所在。

在夸克技术闭门会中，我们终于得以一窥这支素来低调的 AI 技术团队，用以支撑千万份高质量志愿报告的 Deep Research 实现方案。

我将其归纳为：无可指摘的数据壁垒，以及深度对齐的模型训练策略。

1）数据壁垒：在最“笨”的地方，下“苦功夫”

在 AI 时代，我们常常惊叹于算法的精妙，却容易忽视一个朴素的真理：一切智能，都源于高质量的数据喂养。

尤其在高考志愿填报这种“零容错”的场景下，任何一个微小的关键数据差错，都可能对一个家庭的决策造成无法挽回的影响。

我在现场听取分享时，尤其惊讶于夸克在数据方面所下的苦功夫，他们的工作远不止于常规的院校招生网页的抓取。

“高考相关的专业知识，只算权威站点数据，我们就总共搜集了8657 个站点，覆盖高考相关权威站点的99%+，涉及网页 21.3 亿”，夸克高考算法负责人唐亮透露了这样一组惊人的数字。

有 RAG 优化经验的朋友应该都清楚，构建一个高质量的知识库，绝不是把这些数据直接丢进去那么简单。

海量的数据，如果未经清洗，带来的不是智能，而是幻觉与噪音。

而夸克方面，对海量数据进行了分类整理与清洗：

信源权威分级：他们将这 8000 多个站点，如考试院、省招生办、高校官网、阳光高考等，分为不同层级，在生成答案时，得以让模型优先采信最高权威度的信息来源。经内部测试，近 95%的用户问题都有权威内容覆盖。
线下非标文档线上化：另一个巨大的挑战在于，大量关键信息，如高校近三年的就业质量报告、本科教学质量报告，以及政府就业报告、行业报告等，都深埋于超过 10 万份的 PDF、Word 等非标文档中。夸克投入了大量人力，将这些“沉睡”于线下的内容进行线上化处理。
人工校验数据真实性：针对志愿填报所需的事实性数据，会通过上百人的人工审核，确保学校开设的专业名称、分数情况等关键数据的绝对准确性。（这些一旦出错，就算错志愿成功率，或志愿直接无效了）

在数据层面不计成本的投入，初听或许没有精巧的算法那么“性感”，但要将脏活累活做到极致，同样对工程能力提出了巨大挑战。

它构建的不仅是数据壁垒，更是用户信任 AI 的基石。

2）模型策略：多阶段训练，为 Agent 注入稳定的智能

夸克的高考 Agent，以阿里的千问大模型为基模，但这只能保证了它具备强大的通用语言能力，与基础的推理泛化能力。

真正的挑战在于，如何让一个“通用”的模型，在一个“垂直”领域里，既像一个真正的专家那样思考和说话，还能最大程度减少大模型著名的“幻觉”问题？

夸克的解法是为志愿填报场景，打造一个专属高考志愿大模型。

夸克官方分享的高考志愿大模型背后的训练过程

当天，夸克团队也分享了几种非常关键的对齐策略。

在我看来，这对于所有试图在垂直领域构建可靠 Agent 的团队，都极具参考价值：

SFT（监督微调）：
- 围绕人类专家与考生或家长的多轮真实对话，提取出完整分析路径与语言风格，将上万条真实专家“推理过程”转化为高质量监督数据。
- 并把这些数据用于微调，使得大模型得以深度学习人类专家的分析过程，作为垂直场景的推理生成的基础。
RLVR（基于可验证奖励的强化学习）：
- 主要用于保证模型对事实判断的正确性。
- 例如，院校代码、选科要求、计划招生数这类有明确“标准答案”的问答，系统可以通过自动化的数据比对来验证 Agent 生成内容的准确性。如果对了，就给予正向奖励；如果错了，就给予惩罚。
- 通过这种方式，机器可以进行大规模、高效的自我学习和修正，确保在关键事实生成上不出错。
RLHF（基于人类反馈的强化学习）：
- 对于那些没有唯一标准答案的“开放性问题”，比如回答专业前景如何，志愿方案规划是否合理，则需要结合人类专家的智慧评判标准。
- 夸克组织了大量的人类志愿填报专家，对 Agent 生成的志愿方案进行多维度打分。这些来自人类专家的偏好和经验，会反哺给模型，让模型的推荐结果不仅“事实正确”，而且“策略更优”，更符合人类专家的思考范式。

正是这些努力，夸克得以在千问通用大模型的基础上，精细地打磨出一个具备“垂直领域 Agent 能力”的高考志愿大模型。

也正是这种高质量垂直知识源 + 经过深度对齐的垂类大模型的范式，共同构成了夸克 Deep Research Agent 做出可靠研究、决策的核心动力。

冰山之下：一套成熟的垂直 Agent 成功范式

复盘夸克高考 Agent 的“智能”表现和其后台技术支柱后，一个更宏大的问题浮出水面：

这个千万级用户的成功案例，仅仅意味着一次高考场景的胜利吗？或者说，它是否揭示了 AI 应用走向“深度落地”的某些共性规律？

“志愿报告是我们对深度研究技术的一次重要实践”，夸克算法负责人蒋冠军的这句话，其实已经给出了答案。

对于夸克 AI 技术团队而言，高考志愿报告，并不仅是服务于特定人群的一项功能，更是一次典型 Deep Research 场景的「Agent 路演」。

从理解用户模糊、多轮、甚至矛盾的意图开始，到调用多源数据、不同工具进行查询、分析、推理，再到最终生成一份逻辑清晰、高度个性化的万字报告。

整个过程链条极长，且对每一步的准确性和专业性都有着近乎苛刻的要求。

它的成功，标志着 AI 应用已经有能力从过去抽卡式的、随机生成报告的娱乐模式，进入真正解决复杂、垂直、高价值问题的“深度落地”阶段。

许多人谈论数据，讨论模型，但夸克真正做到了：

将场景中那些庞杂、海量的数据，通过极其艰苦的清洗与治理，并以一套系统化的模型训练方法，内化提升模型在垂直领域的综合水平，最终实打实地提升了 Agent 的准确性与判断力。