首位「提示词指南」作者：1500 篇论文浓缩 5 招，让 AI 说人话、答得准|上下文|提示词指南|论文|锚点

全文 6,000字 | 阅读约 40 分钟

(OpenAI合作伙伴Sander 提示工程实战片段分享)

你问它写段代码，它回你三页解释；

你让它写份报告，它却像在参加作文比赛。

AI 越来越强，但我们和它的对话，却越来越像“鸡同鸭讲”。

问题不是模型不行，而是你不会说“它的语言”。

这正是提示词工程（Prompt Engineering）存在的理由。

过去两年，相关论文暴涨 40 倍，累计超 1,500 篇——每一篇都在追问：怎样写 prompt，才能让 AI 说人话、答得准？

这场浪潮，是一个年轻人提前引爆的：

Sander Schulhoff，甚至在 2022 年 11 月 30 日 ChatGPT 上线前两个月，就写出全球第一本提示词工程指南 “Learn Prompting”

链接：

https://learnprompting.org/)

，至今触达 300 万+ 用户。

2025 年 6 月，他联合 OpenAI、Google 等 6 家机构，完成一次划时代的研究：

汇总 1,500 篇论文 + 社区技巧；
实测 200+ 技法，逐项 AB 测试；
最终筛出 5 套适用于所有场景的提示词打法。

他坦率地说：

我们测了 200 多种方法，最后只留下 5 招—— 几乎在所有任务中，都能把准确率推到 90%。

顺便说个现实信号：

美国 Prompt Engineer 年薪中位数 12 万美元，顶尖岗位开到 25 万+；
国内一线大厂给出月薪 1.5–3 万（13–16 薪），挤进 AI 薪酬第一梯队。

Prompt，早已经不是小技巧，而是你能否用好 AI 的分水岭。

本文将详细解读这 5 套提示词打法的来龙去脉：

你将看到：

最有效的结构模板、触发词与示例；
在写文案、分析数据、解释代码等场景的直接用法；
一套可复制的语言控制框架——让 AI 听你的，不再靠运气。

我们先从第一个问题开始：

提示词工程，还真的有用吗？

第一节｜提示词工程“过时”了吗？这 3 个误解得先拆

在正式拆解之前，Sander 先回答了一个最常见、也最被忽视的问题：

“现在不是连自然语言都能直接用了，Prompt 这套东西是不是已经没用了？”

他的回答很直接：

提示词工程一点也没过时，反而比以前更重要。

这句话背后，有三个他在采访中重点澄清的误解。

❶ 误解一：大模型都能理解自然语言了，还用提示词干嘛？

很多人以为，只要模型越来越聪明，用户只需“随口一说”就能得出好结果。

但 Sander 指出，这是一个误会——你说得清楚，不代表模型一定明白你想干什么。

就算你觉得提示词写得完美，模型也可能没抓住你的意图。

为什么？因为模型不会“推测你的上下文”，它只能根据你写的每一个词去“猜测”要完成的任务。

❷ 误解二：提示词不过是凑几个关键词，能有多大差别？

Sander 提出了一组非常关键的测试数据：

我们只调整了一下表达方式，准确率就从 10% 提升到 90%。

这句话非常震撼。意思是：

不是模型变了，不是数据变了，只是换了个说法，输出质量就完全不一样。

这说明，提示词不是“装饰”，而是决定你结果好不好的关键因素。

❸ 误解三：提示词太复杂，普通人用不上

Sander 非常明确地强调：

我们就是要找出那些普通人也能用、而且能反复成功的方法。

他认为，一套好提示词结构，不该是写给软件工程师的，而是像“模板”那样，能被反复套用。

比如他说：像加上一句“我们一步步来想想”，这种简单句就能大幅提升回答条理。

也就是说：写 prompt，不是比谁更专业，而是比谁更接地气。

第二节｜5 套提示词打法，能让模型「听懂人话、答得准」

Sander 在访谈中透露，他们花了 3 个月时间，从1500 多篇论文、提示词社区经验和上百轮实测中，最终只留下了 5 套最常见、最稳定、最管用的提示法。

这些提示词结构不是某个模型特有的，也不是程序员专属，而是几乎适用于所有主流模型、所有基础任务的通用打法。

他说：我们想找的是那种无论任务、领域、使用者是谁都能用的技巧。

下面就是这 5 套被他称为最有效提示技巧：

✅ 技法一：少样本示例（Few-shot）

Sander 提出：“与其让模型凭空写，不如先给一个例子”。

比如你希望 AI 写出跟你风格一致的邮件内容，而不是输出一篇官方腔模板邮件：

如果要写后续邮件，让模型看看你之前邮件的风格。

这时候，最简单有效的做法，就是先贴一个你写过的邮件，接着说：“按这个风格，再帮我写一封”。

这种少样本提示（few-shot）方法的好处是：模型会自动从例子里提取语言风格、语气、段落结构，而不用你一句句解释。

就像 Sander 提到的：“与其说格式是 XML、还是问答式，不如直接给它看一段例子，让它照着做。”

✅ 技法二：任务拆解（Decomposition）

很多复杂任务，其实不该一句话问完。

比如你想让 AI 处理一个“汽车退货”的流程，它可能回答不全、跳过关键步骤。

Sander 提出了一种分步式思路：

我们把任务拆成三个小任务，每个都做了个智能体，最后让它们协同工作。

比如这样拆：

判断客户是否符合退货政策；
检查车辆状态是否完好；
写一封合理的拒信或通过信。

然后告诉模型：“请先判断第 1 点，再继续处理第 2 点……最后输出一封信。”

这种方式的本质是：别指望 AI 一步到位，而是像项目经理一样，一步步布置任务。

Sander 把这叫做“子任务 + 代理协调”的组合打法。

✅ 技法三：自我批评（Self-Critique）

有时你会发现，AI 第一次的回答不够准确。但你直接修改它，它却“听不懂”你的反馈。

Sander 给出了一种巧妙方法：

我让模型先反思自己的输出，然后再根据反思结果进行修改。

做法是：先提示 AI 回顾自己的输出，找出不合逻辑或表达不清的地方，然后根据它自己提的改进建议，来写新版。

这其实利用了模型“评估自己比改别人更擅长”的特点——它更擅长“给出建议”，而不是直接替你改。

你可以这样写提示词：

请你先评价一下上面的分析是否准确，指出两处可以改进的地方。然后再给我一个更新后的版本。

效果往往比你直接说写得不好来得准。

✅ 技法四：补充背景（Additional Context）

这可能是最容易被忽视的一点：

一旦去掉上下文，输出效果会大打折扣。

Sander 提到了一个敏感任务：用 AI 判断某人是否有自杀风险。

他们做了一个实验：

第一组提示：只给聊天记录，模型判断；
第二组提示：加入用户背景、历史行为、职业状态……

结果是：去掉背景信息，模型准确率立刻下降。

Sander 总结说：AI 最怕的信息是不够。不是多了出错，而是少了答偏。

所以每次你要提问前，别忘了先讲清楚情况：

比如：我们是一家做新能源的公司，打算开拓墨西哥市场，现在请你……
再比如：这段代码运行在安卓系统下，是一个金融类 app 的后端逻辑……

背景就是锚点，没有锚点，模型就可能胡猜。

✅ 技法五：提示集成（Ensembling）

如果你发现一个 prompt 不够稳，那就别只用一个。

Sander 分享了一个类似“专家投票”的方法：

我们用不同提示词测试同一模型，最后投票选择最佳输出。

比如：

用 A 提示写一段结尾，偏口语；
用 B 提示写一个正式版；
用 C 提示写个中立风格；

然后让 AI 综合输出，或者你手动选一个效果最佳的。

他称之为 Ensembling（集成），它的好处是：

规避单点失败；
平均掉个别 prompt 的偏差；
提升整体鲁棒性。

Sander 特别提到，做推理任务时，“专家混合提示”非常有效，因为不同提示会触发不同的思维路径。

本节小结：

Sander 最后总结：它们的价值，不是写得花哨，而是让模型知道该怎么做。

第三节｜这些技巧为什么有效？Prompt 是让 AI 别答偏的关键

很多人对提示词有效的原因理解是换个说法模型刚好听懂了，但这其实是误解。

Sander 在访谈中明确指出：

这不是运气，而是你帮模型建立了正确的“期待”——它知道你想要什么。

换句话说，提示词不是用来"忽悠 AI "的，而是让它明白你想要什么。

他把这个过程，拆成了三个核心影响点：

① 明确“该回答什么”

AI 模型最容易出错的第一个环节，不是答不对，而是压根没明白你问的重点在哪。

Sander 举了一个例子：

“比如你说“能帮我看看这个吗”，模型根本不知道你指的是哪一段内容。”

这时，只要你加一段背景说明，比如“这是我们上周写的用户增长报告”，准确率就会明显提升。

这就是前一节说的 Additional Context（上下文）和 Instructions Before Input（先讲清楚），其实本质作用就是：告诉模型“你现在要解决的，是哪件事”。

② 约定“该怎么回答”

即使模型理解了你的问题，它也可能输出一大堆废话。

Sander 解释：

模型的默认行为是"输出冗长内容"或 "容易偏离目标"，除非你明确限制它。

为什么会这样？因为模型的训练目标不是答得短或答得准，而是最大化“像人”一样说话。很多时候，它宁可说得多，也不想冒“说错”的风险。

所以，你要告诉它我要的是什么格式，才能避免它兜圈子。

这就是“一步步来”和“角色扮演”能发挥作用的关键：

一步步来：是让回答变得有步骤、有逻辑；
角色扮演：是让模型知道用谁的语气、站在哪个立场说话——但它更适合低复杂度任务（如写作、解释、教学），在推理或专业任务中效果并不总是理想，这点我们将在第五节详细说明。

③ 降低“不确定感”

Sander 提到一个非常实用的思路：模型出错的最大原因，其实是不确定你要它干嘛。

这句话很关键。

AI 本质上是个预测机器。如果它对你的输入不确定，就容易答偏、答模糊、甚至胡说。

所以提示词不是在加要求，而是在减少它的犹豫空间。你给得越明确，它出错的空间就越小。

Sander 特别强调了提示词的“组合效应”：

“只要组合使用其中 2~3 个提示技巧，模型“胡说八道”的几率就能下降七成以上。”

这些技巧之所以有效，并不是因为模型更聪明，而是因为你说得更清楚了。

用一句话做了总结：

“你不需要换模型，只需要换个说法。”

第四节｜提示工程两种模式：聊天调试 vs 产品提示

很多人以为，提示词就是一句一句地对话——试错、重写、再换说法，好像在和 AI “磨合”。

但 Sander 一上来就把这类方式单独拎出来定义了一个名字：

现在大多数人做的提示词，其实更像是在‘调试’。

什么意思？

你输入一句话，发现 AI 答偏了，就再加一句说明；还是不行，就换个方式重问。这一套“边试边改”的提示方式，Sander 称之为：

“Chat-based prompting.”（对话式提示）

这种方式非常适合日常使用者（C端），比如你在 ChatGPT/DeepSeek 上问问题、让它生成文案、帮你写点代码，它回答得不对你就继续调。

但——问题来了。

做 AI 产品靠这种方式调提示，行不通。

实际上，AI 产品的团队没法每次都调来调去，他们需要的是稳定、可复用、能预期结果的提示结构。

对话调试可以临时修，但企业产品必须一次写好。

Sander 特别强调，“聊天式调试”是个人技巧，“提示产品”是产品设计的一部分：

开发产品里的提示，不是靠技巧取巧，而是要搭建可靠、能大规模运行的输入方式。

这也是为什么 Sander 在调研中，重点关注了Granola、Replit、Bolt 等 AI 工具公司：

这些团队都不是靠“ChatGPT/DeepSeek 那一套”对话来试错，而是提前搭建好提示模块，像写说明书一样，把背景信息、指令、格式要求等内容都写在固定框架里。

以硅谷知名的 AI 笔记公司 Granola 为例，他们的 prompt 模板是这样的：

你是一位高级数据分析专家，当前任务如下： - 背景信息：{{业务场景描述}} - 数据格式：{{表格字段说明}} - 输出要求：以 markdown 格式给出回答， 并在最后附上一段总结 请按上述要求完成任务。

再看 AI编程公司 Replit，他们的 AI Code解释功能用的提示不是怎么问，而是固定搭好的模块+变量：

Please explain the following code  in simple terms: {{code_snippet}}

每一条 prompt，都是提前写好、结构清晰的“产品输入口”，用户看不见，但每次点击时 AI 就是按这个来执行。

你调 prompt，他们在建提示系统

主持人在对话中问得很精准：

在产品中使用提示，为什么往往效果更稳？

Sander 给的回答很简单：

因为你不是在想“这次怎么行”，而是在设计“每次都行”。

这就是关键区别。

你在 ChatGPT/DeepSeek 里，是提问的人；

在产品里，是提示框架的设计师。

你要做的，不是找到一句说法让它答得准，而是搭出一个稳定的问法模板，不管谁用都能用。

本节小结：

Prompt 工程的分水岭，不是用不用技巧，而是你是在调提示，还是在设计提示。

日常用 AI，就像调菜的口味，不对就重做；

但做 AI 产品，就像经营餐厅——每道菜都有标准配方，保证谁点都是一个味儿。

这就是提示词工程，从耍小技巧走向“工程化”的第一步。

第五节｜这几类提示词，正在失效

你可能在网上看到过这样的提示词建议：

请假设你是某某领域专家，比如资深数学教授…… 请你表现得更加严谨/认真/专业…… 如果答错了，你会被处罚/得不到奖励……

很多人以为，这类“角色扮演式提示”能提高 AI 的输出质量。甚至有不少平台把这种写法，打包成了“高效提示指南”。

但在这场访谈中，Sander 直接戳破了这些方法的'假象'。

角色扮演提示：效果微乎其微

主持人问了这样一个问题：有哪些被广泛使用、但其实效果很差的提示方法？

Sander 的回答：一个例子是“角色扮演提示”。虽然很多人觉得好用，比如“你是资深数据分析师”，但数据并不支持它的有效性。

他提到，团队对这一类提示做了成体系的 A/B 测试：

分别用“普通问法”和“加角色扮演”的问法来让 AI 完成任务；
对比模型输出的正确率和稳定性；

结果发现：几乎没有显著差异。

换句话说，这种“你是专家”的提示，更像是心理安慰，并不会真正让 AI 表现更好。

威胁 / 奖励式提示：AI 并不理解你的情绪

另一个被提及的误区，是“激励性提示”：

如果你做对了，我给你奖励。如果你搞砸了，你就失业了。

很多用户以为“给 AI 加压力”，它就会更认真。但在 Sander 看来：

“这些提示词假设 AI 懂得“惩罚”或“奖励”的概念，但实际上它不懂——它只是根据你输入的词来猜下一个词。”

AI 不会因为你恐吓它就认真起来，也不会因为你说有奖金就更聪明。它根本没有那种感受机制。

它只是在分析你的句子，然后用最常见的逻辑生成回复。

所以，这种“请认真点”“好好干活”式的说法，其实并不会让结果更靠谱。

实验证据：这些写法，试了反而会降低效果

Sander 分享了他们团队的实验细节：

“我们把角色扮演、恐吓、奖励这类技巧加到提示词中，发现结果要么没有提升，有时候甚至还更差。”

这是一个关键点：很多看起来合理的写法，其实只是你在多加废话。

尤其是在生成类任务中，加了这些花哨提示，反而会“干扰”模型的重点，让它更容易跑偏。

甚至有时候，会让模型答得更离谱。

第六节｜Prompt不是一句话，而是你与 AI 协议的一部分

你在输入一句 prompt，但实际上，你不是在“提问”，而是在传递一份“任务书”。

很多人误以为提示词只是“话术”，但 Sander 指出，它其实是人和 AI 协作的接口语言，一套完整的操作说明。

Prompt 的三个核心作用

Sander 在访谈中明确指出，真正有效的提示，具备三种“隐藏功能”：

协调器（coordinator）：把不同任务目标捋清楚，告诉模型主线在哪；
筛选器（filter）：从你的输入信息中抓取重点，避免答偏；
执行计划（execution plan）：告诉模型要输出什么、顺序如何、格式长啥样。比如下面这个提示：

你是一位项目经理，需要对以下日报做总结： 1）概括主要进展； 2）识别潜在风险； 3）生成三句话报告，发给 CEO。 日报如下：{{文本内容}}

这段话不是问问题，而是在交代任务：

谁是使用者（项目经理）
做什么事（总结日报）
怎么做（分三步）
输出要求（三句话，面向 CEO）

这就是提示作为“协议”的具体表现。

“提示是操作接口”，这句话该怎么理解？

主持人在听到这番话后追问了一个关键点：所以你是说，Prompt 其实是一种“接口”？

Sander 给出确认：对，把提示想象成你在设计一个界面，只不过这个界面不是按钮，而是语言。

他进一步解释道：

提示工程的重点不再是“说得巧”，而是“用语言设计流程”。

这句话非常重要——

你写 prompt，不是为了让 AI 感觉“你说得真聪明”，而是为了让它像流程图一样跑通任务。

从技巧到工程：Prompt 的下一步是“结构化 + 模板化”

Sander 也谈到了提示工程的未来：未来，团队会越来越多采用提示模板、版本管理、结构化测试。

这意味着：

Prompt 不再是一次性输入，而是一套可以反复调用、持续优化的“语言程序”；
开发团队会像写代码一样维护 prompt：测试哪些更准、记录哪些失败、保留最稳定版本；
最终形成一个“提示词系统”，对接不同场景（文案、客服、投资、教学……）。

这种变化已经在发生。

比如他和团队发起的 HackAPrompt 挑战赛、Prompt Report 工具，就在推动提示从“主观写作”向“客观测试”转型：

把提示按任务分组；
每组设置多个模型、多个样本进行对比；
最终只保留在多个模型上都能稳定生效的提示写法。

很快，你会发现提示工程正在变成一种“设计学科”。

从随意编写到系统设计，这正是 prompt 的发展趋势：工程化、结构化、产品化。

✅ 那从哪开始练？

如果你刚入门，Sander 给出的建议很明确：从写总结、写报告这类结构清晰、目标明确的任务开始训练提示词最有效。

比如试试这样的开头：

你是一位内容编辑，需要将以下文字整理为一段 100 字以内的总结，并包含一个关键数字和一句观点。

或者：

根据以下日报内容，生成三句话概括，突出风险、进展和下一步建议。

这些任务：

目标具体（总结、提炼）；
输出结构稳定（字数、格式、对象明确）； = 最容易验证效果，也最适合 Prompt 工程化训练。

从这里开始，你才能真正体会到——

Prompt，不是“问”，是“设计”；不是写句子，而是搭桥梁。

结语｜一句 Prompt，拉开人与 AI 的能力差距

Sander 在这场访谈里说得最清楚的一句话是：

“提示词不是小技巧，而是一套掌控模型行为的框架。”

1500 篇论文，归纳为 5 套通用技法，他给出的不是花哨写法，而是怎么让 AI 听懂你、按你想的去做。

这不只是“效率提升”，而是分水岭：
对普通人来说，是少走弯路，不再跟 AI“鸡同鸭讲”；
对职场人来说，是让 AI 真正接手工作，而不只是陪聊工具；
对产品和团队来说，是一次“语言转型”，构建可控、可复用的提示协议。

过去我们觉得，Prompt 是模型时代的“使用说明书”。

但今天你看到，它更像一把钥匙：谁掌握得早，谁就拥有真正可控的智能协作力。

一句正确的 prompt，可以省去无数次调试。

也可能是你和其他人拉开能力差距的真正起点。

本文由AI深度研究院出品，翻译整理自 Sander Schulhoff 提示词工程访谈。未经授权，不得转载。

星标公众号，点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

参考资料：

https://www.youtube.com/watch?v=eKuFqQKYRrA&t=2308s&ab_channel=Lenny%27sPodcast

https://www.glassdoor.com/Salaries/united-states-prompt-engineer-salary-SRCH_IL.0%2C13_IN1_KO14%2C29.htm

https://www.indeed.com/career/prompt-engineer/salaries

https://www.zhipin.com/job_detail/d07e057248b91e9f1HFz29y0FlRS.html

https://www.refontelearning.com/salary-guide/prompt-engineering-salary-guide-2025

https://www.lennysnewsletter.com/p/ai-prompt-engineering-in-2025-sander-schulhoff

来源：官方媒体/网络新闻

排版：Atlas

编辑：深思

主编: 图灵

首位「提示词指南」作者：1500 篇论文浓缩 5 招，让 AI 说人话、答得准

热搜

热门跟贴

热搜

热门跟贴

相关推荐

真正值钱的 AI，都长在业务里

荣耀机器人包揽半马前三 工程师回应

刚刚，Claude推出“Figma杀手”，设计软件股暴跌

教龙虾玩手机！打通GUI智能体训练-评测-部署全流程，一站解决

从实验室到城市道路：高德“途途”亮相人形机器人“半马”，揭开阿里具身智能全栈野心

林智坚台大论文撤销过程重启调查？在野轰绿：没下限

百万Token白烧？Claude官方下场：5招治好上下文腐烂

资深程序员收集错误，新手在删除记录

学术不端是学术晋级的最快捷径

跨国搬家8次后，我发现"适应力"是个伪概念

“论文撤稿排行榜”：日本人霸榜，麻醉科造假最多

印度油轮在霍尔木兹遭炮击 船员喊话伊朗海军录音公布

中俄关系比传统“联盟”更深厚、更可靠

一条筹款帖的裂变密码

川崎 H2R模型摩托

知名博主质疑“院长百万经费论文数据涉嫌造假”，同济大学通报

固定锚点，固定锁桩，就用快速万能结，打法简单利落，牢固耐用

顶刊论文被质疑，校方回应后，这事会怎么查？

失去双臂，却用脚“敲”出4篇顶级核心论文！

第四届全国消防科普理论与技术研讨会将于8月在合肥召开

荣耀机器人包揽半马前三工程师回应

印度油轮在霍尔木兹遭炮击船员喊话伊朗海军录音公布