OpenAI 3年砸下2亿用户，工程师却集体吐槽"提示词工程"是|openai|工程师|提示词|软件工程

2024年，全球开发者每天向大模型发送的提示词超过100亿条。但一位在OpenAI工作过4年的工程师最近扔出一句话：「提示词工程不是方法论，软件工程才是。」

这话像一盆冷水。毕竟过去三年，「提示词工程师」年薪炒到33万美元，招聘网站上相关岗位涨了51倍。现在有人告诉你，这可能是个伪概念？

从「咒语」到「代码」：提示词的三次变形

2022年的GPT-3时代，提示词确实像魔法咒语。写得好坏全看语感，有人用「让我们一步步思考」能让准确率暴涨40%，有人换种说法就失效。那时候流传着各种「咒语手册」，比如「你是一个有帮助的助手」开头比「你好」效果好17%——数字精确到可疑，但没人深究。

2023年，情况变了。Anthropic的Claude团队发现，同样的任务，用结构化提示（JSON格式约束）比自由文本的稳定性高出3倍。这不是语感问题，是工程问题。提示词开始被当作代码管理：版本控制、单元测试、A/B对比。GitHub上涌现出一批提示词框架，比如LangChain把提示词模块化，像搭积木一样组合。

2024年的最新趋势更激进。OpenAI的o1模型、Anthropic的Claude 3.5 Sonnet都内置了「思维链」推理，用户不再需要写「让我们一步步思考」——模型自己就会拆步骤。提示词的角色从「指挥家」变成「边界设定者」：你定义输入输出格式，中间过程交给模型自主完成。

那位工程师的核心论点就在这儿：当提示词复杂到需要版本控制、测试用例、异常处理时，它本质上就是代码。而代码就该用软件工程的方法论来管，不是另起炉灶搞什么「提示词学」。

33万美元年薪买的是幻觉？

2023年3月，旧金山一家AI创业公司开出33万美元年薪招「提示词工程师」，要求只有一条：「会和GPT-4聊天」。这职位存在了18个月，公司CTO后来承认：「我们当时不知道自己在招什么。」

数据更能说明问题。LinkedIn 2023年报告显示，「提示词工程师」岗位数量同比增长5100%，但2024年Q2开始下滑23%。与此同时，「AI软件工程师」岗位持续上升，JD里 increasingly 出现一条要求：「能用传统工程方法管理AI系统。」

一位从提示词工程师转岗的开发者描述了他的日常变化：以前花4小时调一句提示词的措辞，现在花4小时写评估脚本——自动跑1000条测试用例，量化对比两个提示词版本的F1分数。「措辞玄学变成了数据科学。」

这背后是成本结构的倒逼。2024年，企业级大模型调用成本下降了70%，但调试成本上升了。提示词越复杂，「幻觉」和「边界失效」越难预测。没有工程化流程，生产环境就是定时炸弹。

软件工程的「老办法」为什么能赢

那位OpenAI工程师举了个具体例子：他们的内部系统处理用户查询时，提示词模板超过2000行。怎么管？

第一，模块化拆分。把提示词切成「意图识别」「参数提取」「安全过滤」「输出格式化」四个独立模块，每个模块有明确接口。一个模块改动，不影响其他部分。

第二，回归测试。每次模型版本更新，自动跑历史查询库，对比输出差异。差异超过阈值就报警，人工介入审查。

第三，类型约束。用Pydantic（Python数据验证库）强制限定模型输出的JSON结构，字段缺失或类型错误直接触发重试，而不是依赖模型「自觉」。「我们不相信模型会听话，我们用代码确保它必须听话。」

这些全是软件工程的基本功：抽象、测试、防御式编程。提示词没有创造新范式，只是把旧范式应用到了新载体上。

有个反直觉的发现：2024年NeurIPS（神经信息处理系统大会）上，Google Research的论文显示，用传统软件工程方法管理的提示词系统，长期维护成本比「提示词原生」方法低58%。原因是后者缺乏可观测性——你不知道为什么某个提示词昨天有效今天失效，只能从头调试。

那「提示词工程」彻底没用了吗

也不是。在特定场景下，提示词技巧仍有价值。比如创意写作、头脑风暴、一次性的探索任务——这些不需要稳定性，要的是涌现性。但企业级应用不同：医疗诊断、金融风控、代码生成，容错率接近于零。

更关键的区分在于「人机协作模式」。提示词工程假设人类是主导，模型是工具；软件工程视角下，人类设计系统，模型是系统中的一个组件。后者的抽象层级更高，也更适合规模化。

Anthropic的开发者关系负责人最近在一个播客里打了个比方：「提示词是和大模型的API协议，但协议本身需要工程化实现。你不会因为懂HTTP协议就叫自己'HTTP工程师'，对吧？」

这个类比有点毒，但准确。2024年的招聘市场正在验证这一点：「提示词工程师」岗位 increasingly 要求计算机科学学位，JD里「软件工程经验」从「加分项」变成「必需项」。纯靠「语感」调提示词的人，正在被淘汰。

一位在2023年靠提示词技巧拿到高薪、2024年被裁的开发者，在Hacker News上写了条评论：「我以为我掌握了一门新技能，其实只是赶上了泡沫。现在我在学Rust，从头开始。」

当模型能力每6个月翻倍，提示词的「最佳实践」保质期可能只有18个月。但软件工程的原则——模块化、测试、可观测性——已经稳定了半个世纪。如果必须押注一个，你会选哪个？

OpenAI 3年砸下2亿用户，工程师却集体吐槽"提示词工程"是

从「咒语」到「代码」：提示词的三次变形

33万美元年薪买的是幻觉？

软件工程的「老办法」为什么能赢

那「提示词工程」彻底没用了吗

热搜

热门跟贴

从「咒语」到「代码」：提示词的三次变形

33万美元年薪买的是幻觉？

软件工程的「老办法」为什么能赢

那「提示词工程」彻底没用了吗

热搜

热门跟贴

相关推荐

重塑软件工程：从Vibe Coding走向Spec Coding

Semianalysis：智能体火爆，CPU成为新的“AI瓶颈”

Codeforces难题不够刷？谢赛宁等造了AI出题机，能生成原创编程题

顶尖大模型“能力突变”，算力需求“系统性超越供给”--大摩：“市场乐观的程度可能还不够”

当Search Agent遇上不靠谱搜索结果，清华团队祭出自动化红队框架

Vibe Coding的风，还是吹到了小红书

Generalist爆火背后：具身智能真正的竞争，已不在模型

以人为本的AI对用户而言才是最有用的AI

本子真找对人了，想增加人口，就得找三哥！

龙虾之父Claude账号被封！近百万人围观：故意的还是不小心的

简直堪称当代奇迹！塔克拉玛干沙漠绿化锁边，致敬中国治沙人！

尼泊尔工程师抽空过来帮娜娜种菜浇水，晚上两人吃着桔子畅聊

川崎工程师坦白整个日本摩托圈，看到张雪俩字心就咯噔一下

桥梁被洪水冲毁后，工程师是如何重建的？看完后涨见识了

硬核改装！工程师给特斯拉加装3.5英寸软驱

Postman藏了7年的流水线暗门，AWS工程师面试必考

WEC GT3"客户赛"变味：厂商塞5个工程师进一支车队

工程师到底有多牛？如此先进的技术，必须卡老美脖子

国外工程师，将自己义眼改成赛博朋克风格，居然还会发光？

90后工程师工作两年，偷公司845台影石相机，再偷240台未遂被抓