2024年,一个做LLM可观测性的开源项目Langfuse在GitHub攒了2.1万星。同年,ClickHouse——那家做列式数据库的俄罗斯公司——把它收购了。这笔交易没透露金额,但信号很明确:LLM监控这个赛道,已经从"要不要做"变成"谁能吞掉谁"。
与此同时,另一家公司OpenObserve正在用完全不同的打法切市场。他们的卖点不是"专精",而是"通吃"——把LLM可观测性和传统基础设施监控塞进同一个二进制文件,存储成本压到行业平均的1/140。
这像极了云计算早期的故事。当年AWS用EC2+S3的组合拳打垮了一堆垂直厂商,现在OpenObserve想复刻一遍。
为什么传统监控工具在LLM面前失灵
Grafana和Prometheus能告诉你CPU占了多少、内存够不够、请求延迟在第99百分位是多少。但LLM出错的方式完全不同:模型可能突然开始胡说八道(幻觉),提示词模板被同事改了一个词导致输出质量暴跌(提示漂移),或者某个Agent循环调用了47次API才完成任务(成本失控)。
这些问题的共同点是——它们发生在语义层,而不是基础设施层。
CHI 2025年的一项研究找了30个开发者,总结出四条设计原则。简单说就是:你得能看到每次调用的完整链条(追踪),能把这次输出和上周的对比(版本控制),能自动标记"这回答很烂"(评估),以及所有数据必须能导出,不能锁死在某个SaaS里。
满足这四条的,目前市面上有明确开源协议的,主要就三家:OpenObserve、Langfuse、Arize Phoenix。
OpenObserve的"作弊"打法
大多数LLM监控工具选择做减法:只盯AI应用层,传统DevOps的事交给Grafana。OpenObserve反着来——它用Parquet/Vertex列式存储+激进压缩,把日志、指标、追踪、前端性能(RUM)全塞进一个部署包。
官方给出的数字是140倍存储成本优势。换算一下:如果你原来每月花1.4万美元存监控数据,现在1000美元搞定。
更实际的好处是查询体验。OpenObserve用SQL,而不是PromQL、LogQL、TraceQL混着来。一个查询就能把"某次LLM调用慢"和"当时Kubernetes Pod的CPU曲线"关联起来。对于已经养了DevOps团队的公司,这意味着少学一门方言。
部署也极简。单二进制文件,2分钟启动。这对想自托管又有数据驻留合规要求的企业很友好——金融、医疗、政务场景常见。
协议是AGPL-3.0。 copyleft属性意味着如果你修改后对外提供服务,必须开源。这对云厂商是威慑,对自用团队没影响。
Langfuse:被收购后的变数
Langfuse的路线是另一个极端:只做LLM层,做透。追踪、提示词管理、评估、数据集管理——这四块构成了一个完整闭环。MIT协议,核心代码完全开放。
被ClickHouse收购发生在2024年末。ClickHouse的动机不难猜:Langfuse产生大量结构化追踪数据,正好喂给列式数据库。但这也意味着Langfuse的技术栈可能深度绑定ClickHouse,对于已经投了Snowflake或BigQuery的团队,这会是个纠结点。
GitHub 2.1万星的社区基本盘是真实力。Y Combinator W23的背景让它早期就拿到硅谷 attention,开发者口碑积累扎实。如果你团队的技术栈以Python/TypeScript为主,Langfuse的SDK集成体验目前仍是第一梯队。
但收购后的路线图尚不明朗。ClickHouse会把它推向"数据分析"还是保持"工程监控"定位?这个答案可能要到2026年中才能看清。
Arize Phoenix: hallucination检测的差异化
Phoenix的协议是Elastic License 2.0——"源码可用"而非严格开源。你可以看代码、改代码、自己部署,但不能拿它做托管服务卖。
它的差异化在RAG和Agent场景。内置的幻觉检测不是简单的规则匹配,而是结合嵌入向量漂移可视化——当你的知识库文档被更新、导致检索结果质量下滑时,能提前预警。
对于已经在用Arize AI企业版的大客户,Phoenix是自然的降维入口。但对于纯开源用户,协议限制和相对较小的社区(相比Langfuse)是现实考量。
选型建议:别被"LLM专用"绑架
三选一的场景其实很清晰。
如果你现在同时用着Datadog/New Relic监控基础设施,又单独买了某个LLM可观测SaaS,预算在燃烧——OpenObserve的"统一栈"能直接砍掉一半工具链。140倍成本数字是理想情况,实际省多少取决于你的数据熵,但方向确定。
如果你团队全是AI原生、没有历史DevOps包袱,Langfuse的垂直深度更香。提示词版本管理和评估工作流是生产级LLM应用的刚需,这块Langfuse比通用平台打磨得更细。
Phoenix的适用面最窄:你的核心痛点是RAG质量不稳定,且能接受源码可用协议。幻觉检测这个功能,OpenObserve和Langfuse靠集成第三方也能做,但Phoenix是原生内置。
一个细节值得注意:OpenObserve基于OpenTelemetry标准,Langfuse和Phoenix也是。这意味着三家理论上可以互导数据,不会被单一供应商锁死。但在2026年的现实里,迁移成本依然真实存在——查询语法、仪表盘配置、告警规则都得重写。
OpenTelemetry成了事实标准,但"标准"和"互通"之间,还隔着大量工程细节。
最后留一个问题:当你的LLM应用从Demo走向生产,监控预算占AI总成本的百分之多少才算合理?1%?5%?还是等到第一次生产事故之后,再回头补票?
热门跟贴