这个夏天,当 AI 的喧嚣仍在云端,有一款垂直 Agent 产品,在中国土壤上,却完成了一次最坚实的落地。

——不到一个月,生成超过 1000 万份深度研究报告,峰值时并行处理 250 万份复杂任务。

这个数字,像一记无声惊雷,从被主流 AI 视野忽视的场景角落炸响。

几乎以一种不容置辩的方式证明:当行业还在追逐通用 Agent 的上限时,已经有玩家在垂直领域的土壤里收获了果实,实现了场景化的超大规模验证。

而交出这份答卷的,正是夸克。

昨天,我有幸受邀参加了阿里夸克 AI 的闭门技术分享会——这是他们技术团队久违的一次亮相。

在那间刚刚结束高强度“战斗”,还保留着作战室氛围的房间里,与夸克算法负责人蒋冠军、高考算法负责人唐亮进行了一场深度对话,从第一视角,去复盘这个数字的诞生。

而复盘的主角,正是他们刚服务了数千万家庭的——高考志愿报告 Agent。

本文将基于这次深度交流,为你呈现这个目前国内最大规模 Deep Research 应用背后的产品逻辑、技术架构,以及带来夸克技术团队对 Agent 应用落地思考的首次对外分享。

智能表现:一个负责任、可信的深度决策型 Agent

在深入技术细节之前,我们必须先回答一个更本质的问题:高考志愿填报,究竟有多考验一个 Agent 的能力?

表面上看,高考志愿填报像是一件每年都在进行的常规事务:人人都得填,而且人人最终也都“填完”了。

但实际上,这是一个极其典型的“高复杂度、个性化”的 AI 决策场景。

想象一下这个画面:一个刚走出考场的学生,和他同样焦虑的家庭,手上仅握着一个决定未来数年人生轨迹的分数。

摆在他们面前的,是一个由近 3000 所高校、超过 2000 个专业构成的,庞大而又陌生的信息迷宫。

更何况在这些信息中,充斥着艰涩难懂的招生章程,也有真假难辨的就业前景分析,更有每年都在动态变化的录取规则与分数线。每一步,都因巨大的信息不对称,充满了决策陷阱。

考生和家长真正需要的,是一个能洞察这些信息,结合分数、兴趣、地域偏好、家庭期望,甚至是性格特点的、负责任、可信的个性化志愿填报方案。

换而言之,他们真的需要人手一个“张雪峰”。

这正是大多数高考信息检索工具的无力之处,也是夸克这款 Deep Research Agent 试图攻克的山峰

——像一个真正的专家那样,具备自主规划、执行、反思和调整的能力,为考生量身定制方案报告。

在与夸克技术团队的交流中,有两个落地细节让我印象深刻。它们恰好回答了 Agent 如何超越“工具”,成为真正的“决策专家”的问题。

1)当现实与用户需求冲突时,Agent 如何“策略性”思考?

用户的需求往往是模糊且理想化的,比如一位考生希望“倾向留在省内(广州、深圳优先),不考虑偏远地区”。

传统的工具只会严格执行筛选,结果往往不尽人意。但夸克的 Agent 展现了极具策略性的一面。

当考生倾向选择广东省内且要求985院校时,模型会自动理解用户所描述的意图,将需求拆解为有优先级的指令序列:“首先推荐广深高校,其次是省内其他城市,并排除偏远地区,对海量志愿信息进行筛选查询。”

更关键的是,当 Agent 发现优质选项受限时,它还会主动“反思调整”,放宽部分条件:

例如,将范围扩大至广东周边发达城市,或在高层次院校(如985)上适度放开地域限制,为考生争取更好的志愿机会。

我在模拟测试时,也触发了偏好地区的“稳”志愿候选不足的情况,夸克 AI 自行扩展了类似专业群志愿的分析流程

2)当用户需求与用户情况自相矛盾时,AI 如何处理?

另一个更能体现 Agent“专家”特质的,是它处理矛盾需求的能力。

“数学成绩差,但想报考计算机”,这类冲突性需求屡见不鲜。这往往源自考生对专业要求的理解不足,以及在信息有限的情况下,对“热门”专业的一种朴素向往。

常见的 AI 工具,可能会直接推荐一堆它认为分数合适的计算机专业,完成“概率最优”的匹配任务即可。

但这恰恰是“工具”和“专家”的分野所在。

夸克高考 Agent 在这种情况下,会触发一个名为“需求澄清”的流程,识别出考生分数与专业要求之间的潜在矛盾,并主动与用户沟通,指出这一选择可能存在的能力匹配问题。

注意,这只是类似场景下的其中 1 种情况。

其他如“我化学很好,但不想学化工相关专业”等等各类要求,在几千万次的 AI 志愿咨询中,相当五花八门,需要 AI 自行泛化理解用户意图中的矛盾,给出合适的引导。

这两个案例,正是夸克所追求的 Agent 具备的素养:

不仅是高效率的工具,还是能与人良好协作,理解、引导、甚至在关键时刻“温柔挑战”你的决策伙伴。

但具备这种专家式思考路径和策略调整的“深度研究 Agent”,并不能凭空产生。

它的背后,正是夸克团队在看不见的后台,于“数据”和“模型”这两个最核心的技术领域上,所付出的巨大努力。

深入后台:Agent 两大技术支柱,支撑千万报告生成

如果说用户侧的交互展现了夸克 Agent 的“智能表现”,那么深入后台,我们才能看到支撑这种智能的真正硬核所在。

在夸克技术闭门会中,我们终于得以一窥这支素来低调的 AI 技术团队,用以支撑千万份高质量志愿报告的 Deep Research 实现方案。

我将其归纳为:无可指摘的数据壁垒,以及深度对齐的模型训练策略。

1)数据壁垒:在最“笨”的地方,下“苦功夫”

在 AI 时代,我们常常惊叹于算法的精妙,却容易忽视一个朴素的真理:一切智能,都源于高质量的数据喂养。

尤其在高考志愿填报这种“零容错”的场景下,任何一个微小的关键数据差错,都可能对一个家庭的决策造成无法挽回的影响。

我在现场听取分享时,尤其惊讶于夸克在数据方面所下的苦功夫,他们的工作远不止于常规的院校招生网页的抓取。

“高考相关的专业知识,只算权威站点数据,我们就总共搜集了8657 个站点,覆盖高考相关权威站点的99%+,涉及网页 21.3 亿”,夸克高考算法负责人唐亮透露了这样一组惊人的数字。

有 RAG 优化经验的朋友应该都清楚,构建一个高质量的知识库,绝不是把这些数据直接丢进去那么简单。

海量的数据,如果未经清洗,带来的不是智能,而是幻觉与噪音。

而夸克方面,对海量数据进行了分类整理与清洗:

  • 信源权威分级:他们将这 8000 多个站点,如考试院、省招生办、高校官网、阳光高考等,分为不同层级,在生成答案时,得以让模型优先采信最高权威度的信息来源。经内部测试,近 95%的用户问题都有权威内容覆盖。
  • 线下非标文档线上化:另一个巨大的挑战在于,大量关键信息,如高校近三年的就业质量报告、本科教学质量报告,以及政府就业报告、行业报告等,都深埋于超过 10 万份的 PDF、Word 等非标文档中。夸克投入了大量人力,将这些“沉睡”于线下的内容进行线上化处理。
  • 人工校验数据真实性:针对志愿填报所需的事实性数据,会通过上百人的人工审核,确保学校开设的专业名称、分数情况等关键数据的绝对准确性。(这些一旦出错,就算错志愿成功率,或志愿直接无效了)

在数据层面不计成本的投入,初听或许没有精巧的算法那么“性感”,但要将脏活累活做到极致,同样对工程能力提出了巨大挑战。

它构建的不仅是数据壁垒,更是用户信任 AI 的基石。

2)模型策略:多阶段训练,为 Agent 注入稳定的智能

夸克的高考 Agent,以阿里的千问大模型为基模,但这只能保证了它具备强大的通用语言能力,与基础的推理泛化能力。

真正的挑战在于,如何让一个“通用”的模型,在一个“垂直”领域里,既像一个真正的专家那样思考和说话,还能最大程度减少大模型著名的“幻觉”问题

夸克的解法是为志愿填报场景,打造一个专属高考志愿大模型。

夸克官方分享的高考志愿大模型背后的训练过程

当天,夸克团队也分享了几种非常关键的对齐策略。

在我看来,这对于所有试图在垂直领域构建可靠 Agent 的团队,都极具参考价值:

  • SFT(监督微调):
    • 围绕人类专家与考生或家长的多轮真实对话,提取出完整分析路径与语言风格,将上万条真实专家“推理过程”转化为高质量监督数据。
    • 并把这些数据用于微调,使得大模型得以深度学习人类专家的分析过程,作为垂直场景的推理生成的基础。
  • RLVR(基于可验证奖励的强化学习):
    • 主要用于保证模型对事实判断的正确性。
    • 例如,院校代码、选科要求、计划招生数这类有明确“标准答案”的问答,系统可以通过自动化的数据比对来验证 Agent 生成内容的准确性。如果对了,就给予正向奖励;如果错了,就给予惩罚。
    • 通过这种方式,机器可以进行大规模、高效的自我学习和修正,确保在关键事实生成上不出错。
  • RLHF(基于人类反馈的强化学习):
    • 对于那些没有唯一标准答案的“开放性问题”,比如回答专业前景如何,志愿方案规划是否合理,则需要结合人类专家的智慧评判标准。
    • 夸克组织了大量的人类志愿填报专家,对 Agent 生成的志愿方案进行多维度打分。这些来自人类专家的偏好和经验,会反哺给模型,让模型的推荐结果不仅“事实正确”,而且“策略更优”,更符合人类专家的思考范式。

正是这些努力,夸克得以在千问通用大模型的基础上,精细地打磨出一个具备“垂直领域 Agent 能力”的高考志愿大模型。

也正是这种高质量垂直知识源 + 经过深度对齐的垂类大模型的范式,共同构成了夸克 Deep Research Agent 做出可靠研究、决策的核心动力。

冰山之下:一套成熟的垂直 Agent 成功范式

复盘夸克高考 Agent 的“智能”表现和其后台技术支柱后,一个更宏大的问题浮出水面:

这个千万级用户的成功案例,仅仅意味着一次高考场景的胜利吗?或者说,它是否揭示了 AI 应用走向“深度落地”的某些共性规律?

“志愿报告是我们对深度研究技术的一次重要实践”,夸克算法负责人蒋冠军的这句话,其实已经给出了答案。

对于夸克 AI 技术团队而言,高考志愿报告,并不仅是服务于特定人群的一项功能,更是一次典型 Deep Research 场景的「Agent 路演」。

从理解用户模糊、多轮、甚至矛盾的意图开始,到调用多源数据、不同工具进行查询、分析、推理,再到最终生成一份逻辑清晰、高度个性化的万字报告。

整个过程链条极长,且对每一步的准确性和专业性都有着近乎苛刻的要求。

它的成功,标志着 AI 应用已经有能力从过去抽卡式的、随机生成报告的娱乐模式,进入真正解决复杂、垂直、高价值问题的“深度落地”阶段。

许多人谈论数据,讨论模型,但夸克真正做到了:

将场景中那些庞杂、海量的数据,通过极其艰苦的清洗与治理,并以一套系统化的模型训练方法,内化提升模型在垂直领域的综合水平,最终实打实地提升了 Agent 的准确性与判断力。

在我看来,这恰恰是夸克与众多停留在“概念验证”阶段的 AI 产品,最根本的实现区别所在。

这种模式,未来同样可以从高考延伸到医疗、法律、科研、金融等更多需要深度决策的领域。

另外,对于通用 Deep Research 需求,夸克也已在上个月面向全量用户开启邀测,通过结构化大纲生成、问题澄清路径、AI工具协同和多模态结果输出等步骤,为用户提供更加广泛的通用深度研究能力。

在过去一个月和夸克团队交流的过程中,最让我动容的,其实不止这些精妙的技术细节。

前两周夸克正式发布高考志愿 AI 时,看到他们分享花了大量精力,前往山区学校,把高考志愿 AI 介绍给当地老师、学生时,

我就在现场写下了感慨:AI 的落地价值,已然建立在粗糙的现实地表,而科技越发达,越要求构建产品的人考量如何发挥科技的价值。

AI 向善,即是科技普惠,信息平权。

七年一剑,借助大模型浪潮,夸克通过高考志愿报告 Agent,让“个人智能助手”的理想形态,第一次如此大规模地照进了现实。

在我看来,这无关乎又一个宏大的 AI 叙事。它只是一个已经发生的、坚实的第一步。
在我看来,这便是 C 端 AI 应用发展的一个重要里程碑。