百万token长文本是噱头？实测有效窗口仅20万|token|上下文|人工智能模型|有效窗口|负载

2026年的大模型市场，"百万token上下文"已成标配。但NVIDIA RULER、Google DeepMind MRCR v2和Adobe NoLiMa三项基准测试揭示了一个尴尬事实：当任务涉及多事实检索时，标称窗口与有效能力的差距高达30-60分。Gemini 3.1 Pro是唯一在百万token单针检索中保持稳定的模型；Claude Opus 4.6领跑多针MRCR测试；GPT-5.5单针精度最优；DeepSeek V4 Pro以十三分之一的成本逼近前者。

这场百万token竞赛像极了当年的手机像素大战：参数表上人人有份，实际工作中几乎用不到，且能在百万token拿高分的模型，往往在12.8万token处落后——而95%的真实负载集中于此。

长文本能力无法一概而论。测试体系已分化出四类场景：

第一类是单针检索（NIAH），在超长文本中定位单一事实。这是最简单的版本，主流模型在百万token处仍能维持90%以上准确率。厂商发布会上的"百万token完美召回"即源于此，但与实际工作无关。

第二类是多针/多跳检索，对应Google DeepMind的MRCR v2（百万token八针测试）和NVIDIA的RULER套件。这更接近真实的长文档RAG场景：从六个不同位置提取事实并整合。此处分数断崖式下跌。Claude Opus 4.6目前在MRCR v2八针测试中领先，约78%，是Claude Sonnet 4.5同测试18.5%的四倍；DeepSeek V4 Pro在MRCR单针变体中 reportedly 达到83.5%，超过Gemini 3.1 Pro的76.3%。

第三类是间接推理，Adobe Research的NoLiMa基准（6.4万token测试）刻意消除问题与目标文本的字面重叠，迫使模型推理定位答案。即便GPT-4o，基线99.3%的准确率也在3.2万token处跌至69.7%。2026年的前沿模型对此讳莫如深，多数厂商选择沉默。