打开网易新闻 查看精彩图片

Chris Laub 最近做了一组对照实验,结果让不少人手里的模型选型表格成了废纸。他把同一套应用用5个大语言模型各实现一遍,再对每款模型测试5种提示词格式。最后发现:Claude 用 XML 提示词拿了最高分,但用 Markdown 也能跑到89分——而某些模型换种格式,分数能差出35分。

模型之间的差距真实存在,但提示词结构带来的波动,和换模型几乎一样大。

实验的干净程度在圈内不多见。Laub 本人是 AI 基础设施公司的创始人,测试设计没有学术机构的冗长流程,但控制变量做得够狠:同一批任务、同一套评分标准,只动格式不动其他。结果一目了然——Claude 对格式最不挑食,GPT、DeepSeek、Gemini、Llama 全都出现剧烈抖动。

小模型的逆袭:参数多20倍,照样打平

小模型的逆袭:参数多20倍,照样打平

PersonaGym 的研究团队(EMNLP Findings 2025)更早一步戳破了"参数崇拜"。他们让10款模型扮演200个不同人格,回答10000个问题。GPT-4 和 LLaMA-3-8b 在"人格一致性"这项上得分相同。

20倍参数差距,被提示词设计抹平了。研究团队的原话是:架构改进 alone 解决不了人格一致性问题,规范质量才是变量

两个独立研究,指向同一个结论。模型不是唯一的瓶颈,你喂给它的东西怎么组织,同样决定天花板。

打开网易新闻 查看精彩图片

这对 AI 智能体(AI Agent)的开发者来说, stakes 更高一层。普通用户和 ChatGPT 聊完就忘,但智能体的系统提示词是常驻内存的"宪法",每轮对话都要回溯。格式混乱的代价不是一次性的,是复利式的。

从 AGENTS.md 到 SOUL.md:开源社区正在收敛

从 AGENTS.md 到 SOUL.md:开源社区正在收敛

开源圈已经用脚投票。466个开源项目的元分析(MSR 2026)显示,AGENTS.md 文件——那种专门告诉编程智能体"项目规范、构建命令、代码风格"的结构化文档——能显著提升智能体表现。问题是格式还没统一,各写各的方言。

Soul Spec 把同一逻辑搬到了人格定义层。不是塞给智能体一大坨系统提示词,而是拆成专注的独立文件:

SOUL.md 管核心人格,MEMORY.md 管经验积累,SKILLS.md 管能力边界,PLANS.md 管目标拆解,SANDBOX.md 管执行约束。每份文件有明确的作用域,智能体按需调用,而不是每次把整本"自传"翻一遍。

Laub 的实验验证的是同一原理:结构化上下文打败非结构化上下文。不管你在组织代码指令还是人格规范,格式都是杠杆。

ACE 框架:把系统提示词当成"会进化的战术手册"

ACE 框架:把系统提示词当成"会进化的战术手册"

打开网易新闻 查看精彩图片

斯坦福和 SambaNova 合作的 ACE 框架走得更远。他们把系统提示词视为"evolving playbooks"——不是写死就完,而是持续迭代优化的活文档。实测结果:结构化 + 迭代优化,性能提升10.6%,底层模型一个字没动。

这和 Soul Spec 的设计形成映射:SOUL.md 负责稳定人设,MEMORY.md 负责动态学习。前者像宪法,后者像判例法,各司其职。

Laub 在实验总结里打了个比方:选模型像是选发动机,但提示词结构是你的变速箱。V8 配手动档可能跑不过四缸配双离合。很多人盯着马力表比价,却忽略了档位怎么挂。

开源社区的反应速度比大厂快。AGENTS.md 的共识还在形成中,Soul Spec 的模块化思路已经被多个智能体项目 fork。ACE 框架的论文刚出来,已经有开发者在做自动化迭代工具——让系统提示词自己跑 A/B 测试,优胜劣汰。

模型厂商当然乐见用户把性能瓶颈归咎于"模型不够强"。但数据摆在这儿:同样的 Claude,XML 和 Markdown 能差出11分;同样的任务,换提示词结构和换模型带来的波动处于同一量级。

对于每天和智能体打交道的开发者,这意味着预算可以重新分配。与其排队等 GPT-5 的 API 额度,不如先把系统提示词拆成 SOUL.md + MEMORY.md + SKILLS.md,跑一轮结构化改造。

你的智能体现在是怎么组织上下文的?还是一坨 prompt 从头塞到尾?