「概念验证通过了,项目却死了。」这不是技术故障,而是工程溃败。
Gartner预测,到2025年底,至少30%的生成式AI项目将在概念验证后被放弃。原因很扎心:数据质量差、风险控制不足、成本失控、商业价值模糊。技术本身没问题,问题出在技术之外的工程层。
我在Axelle AI从事MLOps和LLMOps工程,搭档曾为银行交付AI项目。我们见过太多公司把AI系统推进生产环境时的重复踩坑。这篇讲三个最隐蔽的裂缝。
裂缝一:幻觉不是bug,是特性
放任不管,大语言模型会生成听起来权威、实则完全错误的答案。它接触不到你的数据、政策、产品目录、上季度财报。它生成的是「合理」,而非「真实」。
标准解法是检索增强生成(RAG)。按IBM的定义,RAG是一种通过连接外部知识库来优化AI模型性能的架构。但做好它需要真工程:选什么建索引、文档怎么切分、相关性怎么打分、检索结果没用时怎么处理。
源文档结构混乱、用户查询太模糊、检索到的上下文技术上相关却答非所问——RAG照样崩。多数生产级AI系统最终都上了某种RAG。跳过这步的团队,系统几周内就会 erosion 用户信任。
裂缝二:没人负责的提示词
早期写提示词很随意:写一句,能跑,就过了。规模上来后,这套玩不转。
提示词的小改动——换个说法、换个例子、加句话——可能彻底改变模型行为。客服助手突然用错语言回复,商品推荐工具开始推荐已下架商品。如果没人追踪版本、对比输出、做回归测试,生产事故只是时间问题。
提示词工程不是「写更好的句子」,是软件工程。需要版本控制、A/B测试、自动化评估。很多团队把提示词存在Confluence或Notion里,和代码仓库脱节。这等于把核心业务逻辑交给文档管理。
裂缝三:安全与合规的裸奔
LLM会复述训练数据中的敏感信息。它会帮你写代码,也可能把内部API密钥写进建议里。它会回答用户问题,也可能把其他用户的对话上下文泄露出来。
防护栏(guardrails)不是可选项。输入过滤、输出审核、敏感数据脱敏、访问控制、审计日志——这些基础设施应该和模型选型同步规划,而不是事后补丁。
银行客户常问:「我们用GPT-4,数据会不会被OpenAI存下来训练?」这是合规问题,也是工程问题。需要私有部署、API调用层面的数据隔离、或者干脆换本地化模型。但多数公司的讨论停留在「选哪个模型」,而不是「数据流怎么设计」。顺序错了。
模型是最小的变量
公司花数月评估GPT-4o、Claude、Gemini,却几乎不花时间设计让它可靠运行的基础设施。这是倒序操作。
模型迭代很快。今天的最优解,三个月后可能落后。但数据管道、评估框架、监控体系、安全策略——这些才是长期资产。建好它们,换模型只是配置文件的改动。
30%的烂尾率不是技术天花板,是工程地板。踩实了,才能往上盖。
热门跟贴