还在手动调提示词?你可能还在用2023年的老办法。2026年的开发者圈子里,DSPy这类工具已经让"写提示词"变成了"定义任务",系统自动帮你找出最优方案。这不是未来,是现在的默认工作流

传统提示词工程的核心痛点很简单:靠直觉、难复现、没标准。你写了一个看似不错的system prompt,换个人微调一下可能效果更好——但你不知道差在哪。DSPy的思路彻底翻转:开发者只描述"要做什么",比如"用2-3句话总结GitHub issue,聚焦问题、预期行为和变通方案",剩下的交给优化器。

打开网易新闻 查看精彩图片

具体怎么跑?代码层面三步走。先定义任务签名(Signature),把输入输出字段标清楚;再用ChainOfThought这类模块封装逻辑;最后用BootstrapFewShot优化器,喂进训练数据和评估指标。系统自动生成few-shot示例、尝试不同提示结构、挑出指标得分最高的组合。你定义的评估标准越清晰,优化结果越靠谱。

打开网易新闻 查看精彩图片

这个转变的关键在于指标思维。以前问"这句提示词好不好",现在问"我的评估指标是什么"。指标定了,优化器会找到比人工试错更好的答案,而且结果可测量、可复现。对于任何重要的LLM流水线,这正在成为默认选项。

打开网易新闻 查看精彩图片

手动调优没完全消失,但在系统化场景里已经边缘化。2026年的开发者更关心任务定义和评估设计,而不是prompt的字眼斟酌。工具链的成熟,正在把提示词工程从手艺活变成工程活。