2026年的大模型市场,"百万token上下文"已成标配。但NVIDIA RULER、Google DeepMind MRCR v2和Adobe NoLiMa三项基准测试揭示了一个尴尬事实:当任务涉及多事实检索时,标称窗口与有效能力的差距高达30-60分。Gemini 3.1 Pro是唯一在百万token单针检索中保持稳定的模型;Claude Opus 4.6领跑多针MRCR测试;GPT-5.5单针精度最优;DeepSeek V4 Pro以十三分之一的成本逼近前者。

这场百万token竞赛像极了当年的手机像素大战:参数表上人人有份,实际工作中几乎用不到,且能在百万token拿高分的模型,往往在12.8万token处落后——而95%的真实负载集中于此。

打开网易新闻 查看精彩图片

长文本能力无法一概而论。测试体系已分化出四类场景:

打开网易新闻 查看精彩图片

第一类是单针检索(NIAH),在超长文本中定位单一事实。这是最简单的版本,主流模型在百万token处仍能维持90%以上准确率。厂商发布会上的"百万token完美召回"即源于此,但与实际工作无关。

第二类是多针/多跳检索,对应Google DeepMind的MRCR v2(百万token八针测试)和NVIDIA的RULER套件。这更接近真实的长文档RAG场景:从六个不同位置提取事实并整合。此处分数断崖式下跌。Claude Opus 4.6目前在MRCR v2八针测试中领先,约78%,是Claude Sonnet 4.5同测试18.5%的四倍;DeepSeek V4 Pro在MRCR单针变体中 reportedly 达到83.5%,超过Gemini 3.1 Pro的76.3%。

第三类是间接推理,Adobe Research的NoLiMa基准(6.4万token测试)刻意消除问题与目标文本的字面重叠,迫使模型推理定位答案。即便GPT-4o,基线99.3%的准确率也在3.2万token处跌至69.7%。2026年的前沿模型对此讳莫如深,多数厂商选择沉默。

打开网易新闻 查看精彩图片

第四类是长文本下游任务,普林斯顿HELMET基准覆盖RAG、上下文学习、重排序、摘要和指令遵循,测试长度12.8万token。其核心发现最具参考价值:合成任务(如NIAH)无法预测下游表现。模型可能在针堆里百发百中,却在总结同一份文档时产生幻觉。

NVIDIA RULER给出了最清晰的结论:多数前沿模型在多跳任务中仅能可靠利用标称窗口的50-65%。对GPT-5.5、Claude Opus 4.7和DeepSeek V4 Pro而言,这意味着多针生产负载有效窗口实际落在20-40万token区间——而非标称的百万。

选型建议由此明确:按任务的检索形态选模型,而非 headline 数字。