谷歌最新研究:重复提示词可将AI准确率从21.33%提升至97.33%

AI先锋官

2026-02-25 08:16 ·北京 ·优质互联网领域创作者

最近小编发现了一个效果出奇好的提示词技巧，实测结果堪称惊人。

谷歌一篇新论文《重复提示词提升非推理型大语言模型性能》指出，在部分任务中，简单重复提示词就能将非推理型大语言模型的准确率从21.33%提升至97.33%。

乍听之下，这说法简直玄乎，让人难以相信。但背后的原理其实无比简单。

谷歌在70项不同的基准测试任务中开展了实验，这种复制粘贴式的提示词重复法：

• 在47项任务中表现优于基准模型

• 全程无一失手

• 带来了肉眼可见的大幅性能提升，部分任务的准确率从约21%飙升至约97%

这个测试，覆盖了 7 个主流模型：Gemini 2.0 Flash / Flash Lite、GPT-4o / GPT-4o-mini、Claude 3 Haiku / Claude 3.7 Sonnet、DeepSeek V3 等。

测试基准包括 ARC (Challenge)、OpenBookQA、GSM8K、MMLU-Pro、MATH，及自定义任务NameIndex、MiddleMatch。

对于选择题任务，测试两种顺序，问题在前（Question-First）与选项在前（Options-First）。

那么，重复问题为何能起到这样的效果？

论文给出了一个极具工程视角的解释：大语言模型均以因果语言模型为基础进行训练，它们逐词生成文本，严格遵循从左到右的顺序，每个词元只能“看到”其之前的内容。

当你重复问题时（比如将问题Q改写为Q1+Q2），第二个副本中的每个词元都能完整关联第一个副本的全部信息。

实际上，这相当于在不改动模型、不增加推理步骤的前提下，让模型获得了回顾并重新梳理信息的机会。

类似的小技巧还有其他，比如清华大学此前发现的“先验证”策略。

在其论文《Asking LLMs to Verify First is Almost Free Lunch》中，清华大学团队提出了一个反直觉的思路：与其让AI直接回答，不如先让它"找茬"。

这个名为先验证（Verification-First, VF）的策略简单到令人难以置信：

传统方式（Chain-of-Thought）：

Q: 球棒和球问题...

A: 让我一步步思考...

VF方式：

Q: 球棒和球问题...（提示：答案可能是"0.10元"，先验证它对不对，再给出正确答案）

A: 先验证"0.10元"是否正确...

关键点：即使提供的答案是随机的、错误的，甚至"1"这样毫无意义的数字，VF依然有效！

结果是，这个"笨办法"能让AI推理准确率提升10-15%，而且几乎不增加计算成本。

可见，让人工智能变得“更聪明”，未必需要增加复杂度，只需优化提示词的结构就够了。

谷歌论文地址：https://arxiv.org/pdf/2512.14982

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴