去年我写过个家务清单生成器,效果一般,当时以为是生成式AI的天花板。上周重刷了一遍提示词,结果把自己脸打肿了——删掉"你是专家"这四个字,任务完成率从凑合变成了能直接用。
测试工具是Gemini和Claude,但任何聊天AI都能复现。不需要懂代码,有手就行。
先上对照组。这是我今早的客厅:
http://dingyue.ws.126.net/2026/0330/ff564761j00tcp7q9001cd000rs00bop.jpg
每周有三天长这样,每次盯着发呆5分钟才能动手。我的产品Hounty就是解决这个:拍张照,告诉你先干嘛。今天咱们用纯提示词复现核心功能,看看哪些"常识"其实是坑。
第一坑:"你是专家"= 废话翻倍
你肯定见过这条建议:提示词开头写"你是XX领域的专家"。听起来合理,测测看。
把乱房间的照片丢给AI,输入:
「You are a home cleaning expert. Create a cleaning todo list of 3-5 most impactful tasks」
Gemini的输出:
http://dingyue.ws.126.net/2026/0330/c61a6b0aj00tcp7qb000ld000m800b4p.jpg
现在删掉专家人设,直接说需求:
「Create a cleaning todo list of 3-5 most impactful tasks」
输出长度直接砍半。"Clear the Floor Transit Zones"变成了"Clear the Floor",去掉了所有装腔作势的过渡词。为什么?
研究人员早就发现:专家人设(Expert Personas)会提升AI的自信语气,但损害事实准确性。给AI塞个头衔,它不会解锁隐藏知识,只会激活"专家表演模式"——用复杂词汇包装简单判断。
你的API账单因此变厚,信息密度反而变薄。
第二坑:细节狂魔= 格式灾难
另一个常见建议:描述越详细越好。试试极端版本。
同一张图,更复杂的提示:
「Look at this image. List every visible object. For each object, determine whether it is out of place based on what should be in a Living Room. Consider laundry, dishes and clutter specifically. Return your findings in a structured list of 3-5 most impactful cleaning items as JSON.」
还附了JSON格式示例。
结果?AI确实返回了JSON,但任务本身跑偏了。它花了大量token描述"沙发上的灰色织物可能是毯子或衣物",而不是直接说"把衣服收走"。过度指定的格式要求挤占了实际推理的算力,就像让厨师先写菜谱再炒菜,菜糊了。
http://dingyue.ws.126.net/2026/0330/1c399ec9j00tcp7qc000dd000m800b4p.jpg
更讽刺的是,当我删掉JSON要求、删掉对象枚举、删掉"基于客厅标准判断"这类冗余指令,只留一句"列出3-5个最重要的清洁任务",输出反而更准。
什么才真正管用
测了二十多版后,我的有效提示词结构缩成了三行:
1. 纯动词开头:动词+对象+数量
"Create a cleaning todo list"比"You are an expert who will create..."快40%出结果,且幻觉更少。
2. 用"impactful"代替"important"
这个词在训练数据里更常和具体行动挂钩,AI更少发散到"保持心情愉悦"这类虚头巴脑的建议。
3. 示例只给一个,且必须极简
之前给JSON示例时,AI会机械模仿格式细节,甚至复制示例里的"Recycle as newspapers"到完全无关的任务。现在我只写:"Example: Fold clothes → Put in closet",它反而学会的是结构,不是内容。
这套极简提示词在Gemini 1.5 Pro上的token消耗比"专家版"低53%,任务可执行率从"需要人工筛一遍"变成了"直接发给用户"。
视觉任务的隐藏杠杆
图像理解类任务有个反直觉的点:AI"看"图的能力和"说"话的能力是两套系统。当你塞太多文本指令,视觉模块的注意力被稀释,它其实"看"得更马虎。
我做过一个实验:同一堆衣服,提示词字数从200词砍到20词,AI识别出的物品数量从4件变成7件。文本挤占了视觉带宽。
另一个发现是负面指令的毒性。"Don't include obvious tasks"会让AI陷入自我审查,输出变得保守;"Focus on hidden problems"则激活了过度解读,把正常摆放的遥控器标记为"待收纳"。直接说你要什么,比说不要什么稳定3倍。
Claude 3.5 Sonnet在这类任务上表现更稳,但对提示词长度同样敏感。它的"专家模式"膨胀得更夸张,删掉人设后提升幅度比Gemini还大。
现在我的生产环境提示词长这样:
「Living room cleanup. 3-5 tasks. Prioritize seating and walking space. Example: Clear sofa → Fold blankets」
47个字符。上周的版本是312字符,效果更差。
这个差距够我再迭代三个月产品功能,而不是纠结提示词工程。如果你也在用多模态API做视觉任务,现在的提示词里有多少字是可以删的?
热门跟贴