五周10万个：五角大楼的"氛围编程"实验|五角大楼|供应链风险|国防部|实验|氛围编程|调用

当一家科技公司的工程师用自然语言让AI写代码时，这叫尝鲜。当五角大楼的文职人员在五周内造出10万个AI代理，每天跑2.5万次任务——这就不只是尝鲜了。

从0到10万：一场被压缩在五周内的部署

事情的开端很具体。今年早些时候，五角大楼通过GenAI.mil平台接入了谷歌Gemini的Agent Designer工具。这个面向非技术人员的低代码系统，让没有编程背景的国防部员工也能用自然语言描述需求，生成半自主的AI代理。

五周后的数据：103,000个代理上线，每周新增超过20,000个。日均会话量约25,000次，周总计接近180,000次。

这些数字的陡峭曲线说明了一件事——这不是IT部门主导的技术试点，而是自下而上的工具蔓延。文职人员自己在内网上造工具，解决自己每天面对的重复劳动。

罗伯特·马尔帕斯（Robert Malpass），五角大楼负责情报的副首席数字与人工智能官，在INSA春季研讨会上用了个很直白的评价：「现在，国防部任何人都可以开始。」

谁在造？造了什么？

造这些代理的人不是软件工程师。他们是处理行政事务的职员、分析图像的情报人员、整理财务文档的会计、撰写战略评估的参谋。

被自动化的任务清单很眼熟：起草事后报告、汇编正式的人员评估、图像分析、财务与战略文件审阅。简单说，就是马尔帕斯口中的「无聊工作」——高度重复、规则明确、消耗时间，但又不值得占用人类认知资源的数字劳动。

每个「会话」代表一名用户触发一次代理。热门工具可能被调用数千次，小众工具偶尔运行。这种使用分布暗示了一个生态：少数通用工具解决高频痛点，大量长尾工具覆盖特定岗位的特殊需求。

关键约束在于运行环境——非机密网络。这意味着涉及机密情报或作战系统的核心流程尚未被触及，但国防部日常运转的「数字脂肪」正在被系统性切除。

为什么是「氛围编程」？

「氛围编程」（vibe coding）这个词本身带着点随意感。它描述的是一种开发方式：开发者用自然语言描述想要的结果，AI负责生成代码，人只负责验收和调整「氛围」——感觉对了就行，不关心底层实现。

在五角大楼的语境里，这种随意感恰恰是最具颠覆性的部分。传统政府IT采购周期以年为单位：需求文档、招标、供应商筛选、安全审查、部署、培训。而现在，一名职员上午有个想法，下午就能在内网上线一个能跑的代理。

这种速度打破了两个惯性假设。第一，软件必须由专业人员建造。第二，工具部署必须经过集中审批。当103,000个代理在五周内从用户手中生长出来，「影子IT」的概念被推向了极致——只不过这次，组织选择睁一只眼闭一只眼，甚至主动提供基础设施。

GenAI.mil平台的存在说明这不是失控的蔓延，而是有意识的放养。国防部需要测试：在低风险环境中，放任非技术人员自主造工具，能带来多大的效率红利？代价又是什么？

效率叙事背后的张力

每周180,000次会话，平均每天25,000次。按103,000个代理计算，每个代理每周被调用约1.7次。这个频率不高，但分布极不均匀——少数爆款工具承载了大部分负载。

这种分布揭示了一个产品规律：当造工具的门槛趋近于零，真正稀缺的不是生产能力，而是问题定义能力。知道什么值得自动化，比会造自动化工具更难。

五角大楼的实验提供了一个观察窗口：在大型科层组织中，一线员工对「无聊工作」的忍耐阈值在哪里？当消除摩擦的工具随手可得，他们会优先砍掉哪些任务？答案已经部分显现——文档起草、格式整理、初步分析，这些需要人类阅读大量信息但输出相对结构化的环节。

马尔帕斯的兴奋有其背景。国防部常年被诟病官僚主义臃肿，技术现代化进程缓慢。能在五周内攒出10万个代理，哪怕只是非机密网络的行政辅助工具，也是罕见的「快」。

但这种快也带来治理难题。103,000个代理，谁在使用？输出质量如何验证？是否存在代理之间的冲突或重复建设？当代理开始处理财务和战略文档，错误输出的代价就不再只是「氛围不对」那么简单。

从行政辅助到作战系统的距离

目前的部署边界很清晰：非机密网络，行政事务，人机协同（半自主而非全自动）。这三个限定词划出了一片试验田，但也暗示了天花板。

国防部的核心能力——情报分析、作战规划、武器系统控制——运行在更高安全等级的网络中，受更严格的合规约束。GenAI.mil的代理能否、何时、以何种形式进入这些领域，是观察这个实验深度的关键指标。

谷歌Gemini的Agent Designer被选为底层工具，而非国防部自建系统，也值得注意。这意味着五角大楼在基础模型层选择了商业合作，把资源集中在平台集成和场景适配。这种分工模式在科技行业常见，但在国防采购语境下仍是新鲜事物。

更深层的问题是信任构建。当一个参谋用代理生成一份战略评估草稿，这份文档的权威性来自谁？代理的推理过程是否可审计？在需要问责的军事决策链条中，「AI辅助」和「AI生成」的边界如何划定？

目前的25,000次日均会话还没有触及这些硬问题。但实验的规模已经大到无法忽视——五周10万个代理，按这个速度，年底可能逼近百万量级。届时，「氛围编程」将从边缘现象变成组织基础设施的一部分。

对科技行业的信号

五角大楼的激进部署是一个风向标。它验证了几个正在形成的行业共识：

第一，低代码/无代码工具的企业级采用速度可能远超预期。当技术门槛降到自然语言交互，需求释放的斜率会变得陡峭。

第二，「影子IT」可以被收编为创新来源，而非仅仅是被管控的风险。国防部的做法是提供安全沙盒和基础设施，让一线创新在可见范围内发生。

第三，AI代理的规模化部署不需要等待通用人工智能。特定场景、有限自主、人机回环的半自主代理，已经能够产生可量化的效率收益。

对于正在布局企业级AI代理的科技公司，五角大楼的案例提供了一个说服素材：连最保守的大型组织都在五周内接纳了10万个员工自建代理，其他行业的心理障碍可能比想象中更低。

但这个案例也有其特殊性。国防部的科层压力、人力成本、合规冗余，使其对效率工具的饥渴程度高于一般企业。同时，其非机密网络的隔离性也提供了其他组织难以复制的试错空间。

数据收束

五周，103,000个代理，每周180,000次会话，日均25,000次使用，每周新增超20,000个代理。这组数字勾勒出一个正在发生的组织变革：当AI工具把「造工具」本身变成非技术人员的日常动作，大型科层机构的创新节奏可能被重新定义。

五角大楼的实验还在早期。代理的质量参差、治理框架的缺失、向机密网络扩展的不确定性，都是待解的问题。但速度本身已经成为一个事实——不是技术演示的速度，是真实组织内大规模采纳的速度。对于判断AI代理在企业市场的渗透曲线，这比任何技术白皮书都更有参考价值。

五周10万个：五角大楼的"氛围编程"实验

热搜

热门跟贴

热搜

热门跟贴

相关推荐

从"氛围编程"到系统防御：一个安全研究员的实战觉醒

用AI十分钟，大脑就"废"了？

俄亥俄程序员自曝"我亲手喂大了吃掉我工作的AI"，如今用1段话逼停5亿数据中心

新工程师要熬6个月才看懂代码？她造了个工具

云计算的"乐高困境"：一个老极客的图式突围

一个失眠程序员的深夜实验：用坏掉的音箱造了个局域网播放器

阿尔特塔六年实验：一场正在崩塌的战术豪赌

韩国网友：起初以为是作秀，但看到持续十年的成果

程序员花2小时造了10万条假数据，甲方验收时直说"比真的还真"

硅谷租房崩溃：工程师为何下周没房住？

探秘实验：解码物理原理的神秘面纱

“格子衬衫”逆袭记：摆脱程序员刻板印象

一条"赌气帖"如何引爆全网：情绪产品的病毒密码

英国给微软们开账单：5000万英镑只是首付

RouteMoA：无需预推理的动态路由，实现高效多智能体混合

中国创造一门新编程语言的黄金时代来了？

Claude觉醒惊爆全网，五角大楼深夜拔网线！AI界奥本海默时刻

AI自己造AI，概率60%，2028年底前！Anthropic联创坐不住了

强化学习的进化：从PPO到MaxRL，LLM推理训练的算法演进史

Anthropic联创定下deadline：2028年AI实现自我进化，没有人类了