技术Twitter上最火的AI工具推荐,和生产环境真正跑起来的,往往是两回事。一位在一线扛过故障的工程师最近把家底掏了出来——他用的栈和网红清单重叠度不到三成。

LangChain和LlamaIndex在教程里出镜率极高,但他的生产代码里完全没有。理由很直白:抽象层太厚,debug时像在拆俄罗斯套娃。换成直接调OpenAI SDK加自定义缓存,代码行数少了四成, latency还降了15%。

向量数据库选了Postgres加pgvector,不是Pinecone或Weaviate。「托管服务省下的运维时间,还不够填 vendor lock-in 的坑。」他的原话。团队之前被某家向量DB的突发限流搞崩过推荐流,凌晨三点改代码的经历不想再演。

最反直觉的是评估环节。没买任何现成的LLM观测平台,用Prometheus加自定义指标搭了一套。成本是商业化方案的十分之一,缺点是得自己写PQL查询——但他觉得这笔账划算,「至少知道指标怎么算的」。

文章底下最高赞评论来自另一位工程师:「终于有人敢说LangChain在生产环境是负资产了。」这条收获了四百多个认同。