打开网易新闻 查看精彩图片

最近小编发现了一个效果出奇好的提示词技巧,实测结果堪称惊人。

谷歌一篇新论文《重复提示词提升非推理型大语言模型性能》指出,在部分任务中,简单重复提示词就能将非推理型大语言模型的准确率从21.33%提升至97.33%。

打开网易新闻 查看精彩图片

乍听之下,这说法简直玄乎,让人难以相信。但背后的原理其实无比简单。

谷歌在70项不同的基准测试任务中开展了实验,这种复制粘贴式的提示词重复法:

• 在47项任务中表现优于基准模型

• 全程无一失手

• 带来了肉眼可见的大幅性能提升,部分任务的准确率从约21%飙升至约97%

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这个测试,覆盖了 7 个主流模型:Gemini 2.0 Flash / Flash Lite、GPT-4o / GPT-4o-mini、Claude 3 Haiku / Claude 3.7 Sonnet、DeepSeek V3 等。

测试基准包括 ARC (Challenge)、OpenBookQA、GSM8K、MMLU-Pro、MATH,及自定义任务NameIndex、MiddleMatch。

打开网易新闻 查看精彩图片

对于选择题任务,测试两种顺序,问题在前(Question-First)与选项在前(Options-First)。

那么,重复问题为何能起到这样的效果?

论文给出了一个极具工程视角的解释:大语言模型均以因果语言模型为基础进行训练,它们逐词生成文本,严格遵循从左到右的顺序,每个词元只能“看到”其之前的内容。

当你重复问题时(比如将问题Q改写为Q1+Q2),第二个副本中的每个词元都能完整关联第一个副本的全部信息。

实际上,这相当于在不改动模型、不增加推理步骤的前提下,让模型获得了回顾并重新梳理信息的机会。

类似的小技巧还有其他,比如清华大学此前发现的“先验证”策略。

在其论文《Asking LLMs to Verify First is Almost Free Lunch》中,清华大学团队提出了一个反直觉的思路:与其让AI直接回答,不如先让它"找茬"。

这个名为先验证(Verification-First, VF)的策略简单到令人难以置信:

传统方式(Chain-of-Thought):

Q: 球棒和球问题...

A: 让我一步步思考...

VF方式:

Q: 球棒和球问题...(提示:答案可能是"0.10元",先验证它对不对,再给出正确答案)

A: 先验证"0.10元"是否正确...

关键点:即使提供的答案是随机的、错误的,甚至"1"这样毫无意义的数字,VF依然有效!

结果是,这个"笨办法"能让AI推理准确率提升10-15%,而且几乎不增加计算成本。

可见,让人工智能变得“更聪明”,未必需要增加复杂度,只需优化提示词的结构就够了。

谷歌论文地址:https://arxiv.org/pdf/2512.14982

打开网易新闻 查看精彩图片