30%AI项目将烂尾：工程师看到的三个致命裂缝

赛博兰博

2026-05-21 04:32 ·北京

「概念验证通过了，项目却死了。」这不是技术故障，而是工程溃败。

Gartner预测，到2025年底，至少30%的生成式AI项目将在概念验证后被放弃。原因很扎心：数据质量差、风险控制不足、成本失控、商业价值模糊。技术本身没问题，问题出在技术之外的工程层。

我在Axelle AI从事MLOps和LLMOps工程，搭档曾为银行交付AI项目。我们见过太多公司把AI系统推进生产环境时的重复踩坑。这篇讲三个最隐蔽的裂缝。

裂缝一：幻觉不是bug，是特性

放任不管，大语言模型会生成听起来权威、实则完全错误的答案。它接触不到你的数据、政策、产品目录、上季度财报。它生成的是「合理」，而非「真实」。

标准解法是检索增强生成（RAG）。按IBM的定义，RAG是一种通过连接外部知识库来优化AI模型性能的架构。但做好它需要真工程：选什么建索引、文档怎么切分、相关性怎么打分、检索结果没用时怎么处理。

源文档结构混乱、用户查询太模糊、检索到的上下文技术上相关却答非所问——RAG照样崩。多数生产级AI系统最终都上了某种RAG。跳过这步的团队，系统几周内就会 erosion 用户信任。

裂缝二：没人负责的提示词

早期写提示词很随意：写一句，能跑，就过了。规模上来后，这套玩不转。

提示词的小改动——换个说法、换个例子、加句话——可能彻底改变模型行为。客服助手突然用错语言回复，商品推荐工具开始推荐已下架商品。如果没人追踪版本、对比输出、做回归测试，生产事故只是时间问题。

提示词工程不是「写更好的句子」，是软件工程。需要版本控制、A/B测试、自动化评估。很多团队把提示词存在Confluence或Notion里，和代码仓库脱节。这等于把核心业务逻辑交给文档管理。

裂缝三：安全与合规的裸奔

LLM会复述训练数据中的敏感信息。它会帮你写代码，也可能把内部API密钥写进建议里。它会回答用户问题，也可能把其他用户的对话上下文泄露出来。

防护栏（guardrails）不是可选项。输入过滤、输出审核、敏感数据脱敏、访问控制、审计日志——这些基础设施应该和模型选型同步规划，而不是事后补丁。

银行客户常问：「我们用GPT-4，数据会不会被OpenAI存下来训练？」这是合规问题，也是工程问题。需要私有部署、API调用层面的数据隔离、或者干脆换本地化模型。但多数公司的讨论停留在「选哪个模型」，而不是「数据流怎么设计」。顺序错了。

模型是最小的变量

公司花数月评估GPT-4o、Claude、Gemini，却几乎不花时间设计让它可靠运行的基础设施。这是倒序操作。

模型迭代很快。今天的最优解，三个月后可能落后。但数据管道、评估框架、监控体系、安全策略——这些才是长期资产。建好它们，换模型只是配置文件的改动。

30%的烂尾率不是技术天花板，是工程地板。踩实了，才能往上盖。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴