谷歌工程师跑了5遍实验：换提示词结构比换模型管用|上下文|实验|智能体|电子表格|谷歌工程师

Chris Laub 最近做了一组对照实验，结果让不少人手里的模型选型表格成了废纸。他把同一套应用用5个大语言模型各实现一遍，再对每款模型测试5种提示词格式。最后发现：Claude 用 XML 提示词拿了最高分，但用 Markdown 也能跑到89分——而某些模型换种格式，分数能差出35分。

模型之间的差距真实存在，但提示词结构带来的波动，和换模型几乎一样大。

这实验的干净程度在圈内不多见。Laub 本人是 AI 基础设施公司的创始人，测试设计没有学术机构的冗长流程，但控制变量做得够狠：同一批任务、同一套评分标准，只动格式不动其他。结果一目了然——Claude 对格式最不挑食，GPT、DeepSeek、Gemini、Llama 全都出现剧烈抖动。

小模型的逆袭：参数多20倍，照样打平

PersonaGym 的研究团队（EMNLP Findings 2025）更早一步戳破了"参数崇拜"。他们让10款模型扮演200个不同人格，回答10000个问题。GPT-4 和 LLaMA-3-8b 在"人格一致性"这项上得分相同。

20倍参数差距，被提示词设计抹平了。研究团队的原话是：架构改进 alone 解决不了人格一致性问题，规范质量才是变量。

两个独立研究，指向同一个结论。模型不是唯一的瓶颈，你喂给它的东西怎么组织，同样决定天花板。

这对 AI 智能体（AI Agent）的开发者来说， stakes 更高一层。普通用户和 ChatGPT 聊完就忘，但智能体的系统提示词是常驻内存的"宪法"，每轮对话都要回溯。格式混乱的代价不是一次性的，是复利式的。

从 AGENTS.md 到 SOUL.md：开源社区正在收敛

开源圈已经用脚投票。466个开源项目的元分析（MSR 2026）显示，AGENTS.md 文件——那种专门告诉编程智能体"项目规范、构建命令、代码风格"的结构化文档——能显著提升智能体表现。问题是格式还没统一，各写各的方言。

Soul Spec 把同一逻辑搬到了人格定义层。不是塞给智能体一大坨系统提示词，而是拆成专注的独立文件：

SOUL.md 管核心人格，MEMORY.md 管经验积累，SKILLS.md 管能力边界，PLANS.md 管目标拆解，SANDBOX.md 管执行约束。每份文件有明确的作用域，智能体按需调用，而不是每次把整本"自传"翻一遍。

Laub 的实验验证的是同一原理：结构化上下文打败非结构化上下文。不管你在组织代码指令还是人格规范，格式都是杠杆。

ACE 框架：把系统提示词当成"会进化的战术手册"

斯坦福和 SambaNova 合作的 ACE 框架走得更远。他们把系统提示词视为"evolving playbooks"——不是写死就完，而是持续迭代优化的活文档。实测结果：结构化 + 迭代优化，性能提升10.6%，底层模型一个字没动。

这和 Soul Spec 的设计形成映射：SOUL.md 负责稳定人设，MEMORY.md 负责动态学习。前者像宪法，后者像判例法，各司其职。

Laub 在实验总结里打了个比方：选模型像是选发动机，但提示词结构是你的变速箱。V8 配手动档可能跑不过四缸配双离合。很多人盯着马力表比价，却忽略了档位怎么挂。

开源社区的反应速度比大厂快。AGENTS.md 的共识还在形成中，Soul Spec 的模块化思路已经被多个智能体项目 fork。ACE 框架的论文刚出来，已经有开发者在做自动化迭代工具——让系统提示词自己跑 A/B 测试，优胜劣汰。

模型厂商当然乐见用户把性能瓶颈归咎于"模型不够强"。但数据摆在这儿：同样的 Claude，XML 和 Markdown 能差出11分；同样的任务，换提示词结构和换模型带来的波动处于同一量级。

对于每天和智能体打交道的开发者，这意味着预算可以重新分配。与其排队等 GPT-5 的 API 额度，不如先把系统提示词拆成 SOUL.md + MEMORY.md + SKILLS.md，跑一轮结构化改造。

你的智能体现在是怎么组织上下文的？还是一坨 prompt 从头塞到尾？

谷歌工程师跑了5遍实验：换提示词结构比换模型管用

小模型的逆袭：参数多20倍，照样打平

从 AGENTS.md 到 SOUL.md：开源社区正在收敛

ACE 框架：把系统提示词当成"会进化的战术手册"

热搜

热门跟贴

小模型的逆袭：参数多20倍，照样打平

从 AGENTS.md 到 SOUL.md：开源社区正在收敛

ACE 框架：把系统提示词当成"会进化的战术手册"

热搜

热门跟贴

相关推荐

水下20米充气球实验，模拟炸肺的原理，原来是这么一回事！

别学Claude Code了！OMC五大「卧槽」功能解析：自动化开发军团来了

首次！OpenClaw又更新，直接合并QQ官方插件

连续“罢工”后编码风格突变 释放多个Agent相关岗位，DeepSeek大招来了？

慢镜头看物理老师做实验，要不是学生拍下来，简直不敢相信！

Anthropic王炸Claude基准测试泄露，卡皮巴拉细节曝光！还在代码里下毒

AI自主开发团队崛起，一个月搞定传统团队数月工作量

谷歌工程师把10年踩坑经验写成书，上市3周被CTO们抢空

龙虾办公缺的那双“手”，飞书用CLI补上了

别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限

南京首个春假，这群孩子在大学校园里复刻陶行知的小实验

AI加持48小时肝出学术论文 这群年轻人干成了

40岁转行程序员：André用18个月拆穿3个行业谎言

这场实验也算是没白做

英国冻结一中国公民及关联公司8100万英镑房产，要求3个月内证明购房资金合法

国家知识产权局：使用OpenClaw等智能体撰写专利申请文件或诱发多重风险

MiniMax来承包你的桌面了-4

从“全民养虾”到企业落地：OpenClaw的三重现实拷问

AReaL v1.0开源，智能体强化学习「一键接入」

有趣的实验

连续“罢工”后编码风格突变释放多个Agent相关岗位，DeepSeek大招来了？

AI加持48小时肝出学术论文这群年轻人干成了