打开网易新闻 查看精彩图片

你有没有想过,监控生产环境这件事可能彻底变了?工程师们每天被淹没在成千上万的告警和数据流中,疲于应对各种突发事件。传统的可观测性工具正在变成昂贵的噪音生成器,而不是真正能帮助解决问题的合作伙伴。但如果告诉你,有一个平台不仅能监控你的系统,还能主动发现问题、诊断根因、甚至自动修复,你会怎么想?

这不是科幻场景,而是刚刚获得1.1亿美元B轮融资、估值达到10亿美元的 Dash0 正在实现的现实。这家由 Balderton Capital 领投的初创公司,正在用 AI agent 彻底改变软件运维的方式。当硅谷资本圈还在讨论 AI 将如何颠覆各个行业时,Dash0 已经用实际行动证明:在生产环境运维这个领域,AI agent 不是未来,而是当下。

打开网易新闻 查看精彩图片

我深入研究了 Dash0 的融资公告、创始人访谈和产品架构后,发现这家公司的故事远比表面上看起来更有意思。它不仅仅是又一个拿到大额融资的初创公司,而是代表了整个可观测性行业正在经历的根本性转变。从被动监控到主动管理,从人工诊断到自主修复,从专有标准到开放协议,这些转变正在重新定义我们如何构建和运维现代软件系统。

PS:我的出海新书已经上架了,我特意申请了公众号读者专属的优惠链接,可以享受半价折扣,欢迎感兴趣的朋友购买。

同时我还特地建立了实名制的读者群,我会在群里定期解答一些问题和开展线上线下活动,欢迎购书的朋友实名制入群,大家一块交流,共同出海!

传统可观测性工具为什么失效了

我在软件行业工作多年,亲眼见证了可观测性工具的演进。早期的监控工具很简单,就是设置一些阈值告警,CPU 使用率超过 80% 就发个邮件通知。但随着架构变得越来越复杂,从单体应用到微服务,从虚拟机到容器,从传统数据中心到云原生环境,监控系统产生的数据量呈指数级增长。

Dash0 的 CEO Mirko Novakovic 在接受采访时说了一句话,我觉得特别精准:"我们的工作是在干草堆里找针。如果干草堆变得更大,并不会让找针变得更容易。如果你还要为这些干草付钱,那就更不合理了。"这句话道出了当前可观测性工具面临的核心困境:数据越来越多,但洞察力却没有同步提升,反而成本不断攀升。

我观察到的另一个问题是,传统可观测性厂商的商业模式本身就有问题。它们按数据量收费,你发送的日志、指标和追踪数据越多,账单就越高。这就造成了一个悖论:为了控制成本,工程团队不得不限制数据采集,但这又意味着可能错过关键信息。我听说过不少公司因为可观测性工具的成本失控,每年要支付数百万美元的账单,但实际上大部分数据从未被真正利用过。

打开网易新闻 查看精彩图片

更严重的是告警疲劳问题。现代应用可能运行着成百上千个微服务,每个服务都在产生告警。当系统出现问题时,工程师可能同时收到几十甚至上百个告警通知。哪个是根本原因?哪些只是连锁反应?人类根本无法在短时间内处理如此海量的信息。结果就是工程师要么忽略大部分告警,要么疲于奔命却抓不住重点。

我认为,这些问题的根源在于:传统可观测性工具是为仪表盘和人工响应设计的,它们假设有人会盯着屏幕看图表,分析趋势,手动排查问题。但在 AI 时代,当代码生成速度加快、部署频率提高、系统复杂度暴增时,这种模式已经完全不适用了。我们需要的不是更多数据和更漂亮的仪表盘,而是能够自主理解问题并采取行动的智能系统。

Agent0:从监控到自主运维的跨越

Dash0 的核心创新在于它的 Agent0 平台,这是一个由专门化 AI agent 组成的系统,能够将原始的可观测性数据转化为自主行动。注意,我说的是"自主行动",不仅仅是"发现问题"或"提供建议"。

Agent0 包含多种类型的 AI agent,每一种都专注于解决特定的运维场景。AI SRE agent 可以找到生产问题的根本原因,并提供清晰的修复指导。可观测性繁琐工作 agent 能够自动创建仪表盘、告警和 SLO,并随着系统变化保持更新。迁移 agent 可以自动帮助团队从昂贵的传统厂商迁移出来。成本优化 agent 持续优化基础设施支出。安全 agent 实时检测和响应异常。部署 agent 验证发布、控制推出过程,并在问题变成事故之前缓解回滚风险。

我特别欣赏 Dash0 允许客户在其开放平台上构建和部署自定义 agent 的做法。这创造了一个复合层的运营智能,可以根据每个公司独特的生产环境进行定制。这种开放性非常重要,因为没有两家公司的技术栈和运维需求是完全相同的。通过提供构建自定义 agent 的能力,Dash0 让每个客户都能将其平台打造成最适合自己的工具。

打开网易新闻 查看精彩图片

在我看来,Agent0 代表了可观测性行业的一个关键转折点:从被动监控到主动管理的转变。传统工具只会告诉你"有问题了",但 Agent0 会告诉你"问题出在哪里,为什么会出现,以及如何修复"。更进一步,它可以在某些情况下自动执行修复操作,完全不需要人工介入。

这种能力在当今的软件开发环境中尤其重要。Mirko 在访谈中提到了一个让我印象深刻的例子:他们的 CTO 最近创建了一个包含 3 万行代码的 PR(拉取请求)。这些代码大部分是由 AI 编码 agent 生成的。现在想象一下,当这 3 万行代码被推送到生产环境后会发生什么?人类几乎不可能完整审查这么多代码,也无法预测所有潜在问题。这就是 Dash0 的 agent 发挥作用的地方:它们会监控新代码的行为,快速识别是否存在问题,必要时可以自动回滚或逐步推出功能。

我觉得这揭示了一个更深层的趋势:当 AI 开始大规模生成代码时,我们也需要 AI 来监控和管理这些代码。人类的认知能力是有限的,但 AI agent 可以处理的数据量和速度远超人类。这不是要取代工程师,而是让工程师能够专注于更高价值的工作,而不是被淹没在告警和日志中。

OpenTelemetry:为什么开放标准如此重要

如果你关注可观测性领域,你会注意到 Dash0 反复强调一点:它是"原生构建在 OpenTelemetry 之上"的。这不是什么营销噱头,而是一个战略性的技术决策,也是 Dash0 能够快速成长并获得市场认可的关键原因之一。

OpenTelemetry 是一个开源标准,用于收集和组织应用程序的遥测数据。在 OpenTelemetry 出现之前,可观测性市场被专有格式主导。你选择了 Datadog,就要使用 Datadog 的 agent 和数据格式;你选择了 Dynatrace,就要用 Dynatrace 的方式。这种锁定非常强,因为一旦你的整个监控体系建立在某个厂商的专有格式上,迁移成本就会极高。

打开网易新闻 查看精彩图片

Mirko 在访谈中解释了 OpenTelemetry 的起源。这个标准最初是由 Google 等公司推动的,核心动机不是为了消除厂商锁定,而是为了解决云平台提供遥测数据的问题。当你使用 AWS 或 Google Cloud 时,这些平台需要提供关于你应用运行状况的数据。但它们不可能支持市面上所有可观测性厂商的专有格式。所以需要一个标准化的格式,让数据能够在不同工具之间流动。

我认为 OpenTelemetry 的价值远不止于此。它实际上改变了可观测性市场的权力结构。数据不再属于厂商,而是属于客户。你可以用同一套 OpenTelemetry 数据对接不同的分析工具,可以轻松切换供应商,也可以同时使用多个工具来满足不同需求。这种灵活性对企业客户来说极具吸引力。

但 Dash0 利用 OpenTelemetry 的方式更加聪明。Mirko 提到了一个我之前没有意识到的重要点:大语言模型已经在 OpenTelemetry 上训练过了。因为 OpenTelemetry 是开源的、公开的、有完整文档的标准,所有这些信息都已经被纳入了 LLM 的训练数据中。这意味着当你把 OpenTelemetry 格式的追踪数据输入到 Claude 或 ChatGPT 时,模型能够直接理解这些数据的含义和上下文。

这就是为什么 Dash0 能够如此快速地在其平台上集成 AI 能力。它们不需要训练模型去理解专有数据格式,不需要建立复杂的数据转换层,因为底层数据已经是 LLM 能够理解的标准格式了。从某种意义上说,选择 OpenTelemetry 作为基础,让 Dash0 在 AI 集成方面占据了先发优势。

另一个重要的技术优势是上下文管理。Mirko 强调 Dash0 从第一天起就专注于保持数据的上下文完整性。什么意思呢?当你的应用出现性能问题时,你需要关联多种类型的数据:日志告诉你发生了什么,追踪数据告诉你代码如何在系统中流动,指标告诉你资源使用情况。但你不需要所有服务器的 CPU 使用率,你只需要运行问题代码的那台服务器的数据。这就是上下文。

我发现很多可观测性工具在这方面做得很糟糕。它们会给你海量数据,但缺乏上下文关联,你需要手动拼凑线索。而 Dash0 的架构确保所有数据都带着完整的上下文,这对 AI agent 来说至关重要。LLM 的上下文窗口是有限的,你不能把所有数据都塞给它。你必须提供正确的、带有正确上下文的数据,AI 才能做出有意义的分析和建议。

一个连续创业者的成功密码

我觉得 Dash0 的故事不能不提创始人 Mirko Novakovic 的背景。这不是他第一次创业,也不是他第一次做可观测性公司。2015 年,他创立了 Instana,同样是一家可观测性公司,专注于微服务监控。经过 5 年发展,Instana 在 2020 年被 IBM 以 5 亿美元收购。

从 Mirko 的访谈中,我看到了一个成功连续创业者应有的特质:谦逊、学习能力强、对市场变化保持敏感。他说卖掉 Instana 之后,他对妻子说再也不会做创业公司了,绝对不会再做可观测性。然后他去度假、做天使投资。但两年半后,当 Accel 请他帮忙做一家可观测性公司的尽职调查时,他重新燃起了激情。

我特别喜欢他描述的那个场景:他和妻子喝着红酒,跟她讲 OpenTelemetry 这个新标准有多么令人兴奋。他妻子可能已经被他烦得不行了,就说:"那你就去做吧。"就在那天晚上,Mirko 拿出信用卡,在美国注册了 Dash0 公司。

打开网易新闻 查看精彩图片

从 Instana 到 Dash0,Mirko 带来了宝贵的经验教训。他说 Instana 从第一天起就是纯企业销售模式,当公司规模达到 2000 万到 3000 万美元年收入时,他们发现很难建立足够的销售管道。通过 SDR(销售开发代表)进行外呼的企业销售太昂贵、太费力了。

所以这次他改变了策略,构建了一个适合 PLG(产品驱动增长)的产品。用户可以自助注册、试用产品、输入信用卡进行小额购买,然后逐步扩大使用规模。这种自下而上的增长模式更符合当今开发者的工作方式。20 年前,购买决策可能是由 CTO 或基础设施副总裁做出的,销售代表可以通过牛排晚宴搞定一笔交易。但现在完全不同了,决策权在开发者和技术团队手中。

Mirko 说现在的高管会告诉销售:"我不做决定,让我的开发团队去评估。"这种管理风格是好的,但它彻底改变了销售方式。开发者不想和销售人员交谈,他们想自己找到产品、测试它、看看是否有价值,然后才愿意进行更深入的对话。

我认为这种洞察非常重要。很多创业者会坚持某种特定的商业模式或销售策略,即使市场已经变化了。但 Mirko 展现出了强大的适应能力。他从第一次创业中学到了什么有效、什么无效,然后在第二次创业时做出了相应调整。这种学习和进化能力,正是优秀创业者的标志。

另一个有趣的细节是团队构成。Dash0 有一支由来自微软和 Google 的资深 AI 工程师组成的团队。首席 AI 官 Anirudh Badam 在微软西雅图总部有超过十年的 AI/ML 经验,创始 AI 工程师 Vijay Sagar 在 Google 硅谷办公室开发机器学习模型十年。这样的技术团队配置,对于构建 Agent0 这样复杂的 AI 系统是必不可少的。

快速增长的秘诀和市场机会

Dash0 的增长速度让人印象深刻。公司成立于 2023 年,仅仅五个月前完成了 A 轮融资,现在就宣布了 B 轮。在这期间,他们的销售数字比计划高出了 5 倍,突破了 1000 万美元的年度经常性收入(ARR),并计划在 2026 年实现 10 倍增长。目前拥有超过 600 家付费客户,包括 Zalando、Taco Bell 和 The Telegraph 这样的全球品牌。

我觉得这种快速增长背后有几个关键因素。第一是市场时机。Mirko 说他在可观测性领域有 26 年经验,当他创立 Dash0 时,其实并不确定能增长得这么快。这是一个竞争激烈的红海市场,有一些大型玩家占据主导地位。但事实证明,市场已经"坏掉"了。客户产生大量数据,但要为这些数据支付高昂费用,而数据量的增加并不意味着更好的洞察力。

打开网易新闻 查看精彩图片

第二是差异化的定价模式。Dash0 帮助客户减少数据量,基于数据流经平台的总量收费,而不是像 Datadog 那样为不同类型的数据分别计费。Mirko 说这种简化的计费方式给了他们相对于竞争对手的优势。客户知道自己要付多少钱,不会因为账单意外飙升而感到沮丧。

第三是 150% 的净收入留存率(NRR)。这是一个非常健康的指标,说明现有客户不仅在续约,还在大幅增加使用量。他们添加更多数据、更多功能,并在 Dash0 和 OpenTelemetry 基础上整合他们的平台。Mirko 提到,几乎每个登录 Dash0 的用户都在使用 Agent0,用 AI 来理解数据。这种高参与度是产品真正有价值的标志。

第四是 PLG 策略的成功执行。Dash0 每周通过 PLG 获得 15 到 20 个新客户,这些客户可能是小型创业公司,也可能是大型企业内的团队在测试产品。这种持续的客户流入为销售团队提供了大量线索。有时一个团队会在大公司内部使用 Dash0,然后销售团队可以介入,看看是否能将使用范围扩展到整个公司。

我认为 Dash0 正在抓住一个巨大的市场机会:帮助企业摆脱传统厂商的高成本和复杂性。投资人 Ross Mason 说:"我们从第一天起就看着 Dash0 以罕见的精确度执行。加大对这个团队的投资不是一个困难的决定,而是一个显而易见的选择。从被动可观测性到自主生产运营的转变,是这个十年中最重要的基础设施转型之一,而 Dash0 正在引领它。"

这轮融资的用途也很清晰。最大的投资将用于深化 Agent0 平台,扩展自主 agent 库,加速核心工程路线图,并向在 Dash0 基础设施上构建自己 agent 的客户开放平台。大量资金将用于激进的市场拓展,主要聚焦美国市场,那里企业工程团队的需求最强,取代 Datadog 和 Grafana 等现有厂商的机会最直接。公司还将进行针对性的战略收购,涉及 LLM 和 agent 可观测性、AI SRE 和 AI 安全领域,加速那些原本需要多年才能有机增长出来的能力。

AI 正在改变一切,包括可观测性

在访谈中,Mirko 多次提到 AI 正在以难以置信的速度改变整个行业。他坦言,很难制定清晰的 6 个月战略,更不用说 5 到 10 年的规划了。变化速度太快了。

他举了一个让我印象深刻的例子:如果你在 6 个月前问他关于编码 agent 的问题,他不会预料到今天他们 90% 以上的代码是由 agent 生成的。但现在这就是现实。编码 agent 正在生成大部分代码,这改变了可观测性的使用方式。

想想这意味着什么。传统上,可观测性是用来监控人类开发者编写的代码。但现在,agent 在编写代码,这些代码可能包含数万行,几乎不可能完整审查。你只能把它推送到生产环境,然后依靠可观测性平台来快速识别问题。Dash0 的 agent 会检测新的代码变更,调查它是否正常工作,如果有问题可以自动回滚,或者逐步增加流量来验证新功能。

我觉得这揭示了一个更深层次的趋势:AI 生成的代码需要 AI 来监控和管理。这不是巧合,而是必然。当代码生成速度远超人类理解速度时,我们需要同样快速的 AI 系统来确保这些代码在生产环境中正常运行。可观测性在 AI 时代不再只是"看看系统运行得怎么样",而是成为一种保险策略,确保高频部署的大量 AI 生成代码不会引发灾难。

Mirko 还提到,AI 正在改变产品开发的方方面面。他们使用 Claude(Anthropic 的大语言模型)来分析 OpenTelemetry 数据,因为 Claude 已经在这个开源标准上训练过了。当你把 OpenTelemetry 追踪数据粘贴到 Claude 或 ChatGPT 时,模型能够理解它是什么,因为它是一个公开的、有完整文档的标准,包括语义约定和开源的代码插桩 agent。

我认为 Dash0 在 AI 时代的成功不是偶然的。他们的架构恰好适合这个新世界,虽然在 2023 年创立时并没有预见到所有这些变化。但当市场转向 AI 驱动的开发和运维时,Dash0 已经做好了准备。他们拥有正确的数据格式(OpenTelemetry)、正确的架构(上下文化的数据)和正确的心态(拥抱 AI)。

对未来的思考:数据才是护城河

在最近的市场动荡中,投资者开始重新评估哪里才有真正的竞争优势。很多软件公司因为担心 AI 会让它们变得过时而股价大跌。在这种背景下,Dash0 的融资成功显得格外有意义。

Mirko 在采访中说了一句话,我觉得特别关键:"对我们来说,护城河是数据。"他举例说,对于像 Zalando 这样的客户,他们捕获的请求数量达到数万亿级别。目前的大语言模型,即使是像 Anthropic 的 Claude 这样先进的模型,也还无法摄入 Dash0 能够处理的数据量。

我认为这个观点非常深刻。在 AI 时代,很多人担心软件会被商品化,因为 AI 可以快速生成代码。但 Dash0 的价值不在于代码本身,而在于它能够处理、关联和理解海量生产数据的能力。这些数据是独特的、特定于每个客户的,包含了关于系统如何运行、用户如何交互、问题如何发生的深层知识。

这些数据加上 AI agent 的处理能力,形成了一个难以复制的竞争优势。你不能简单地拿一个通用的 LLM 来替代 Dash0,因为 LLM 需要正确的数据、正确的上下文和正确的领域知识才能做出有意义的分析。而 Dash0 正是在构建这样一个完整的系统:OpenTelemetry 标准的数据采集、智能的数据关联和上下文管理、专门化的 AI agent 来处理不同的运维场景。

展望未来,我相信我们会看到更多这样的趋势:不是用 AI 取代软件,而是用 AI 增强软件,使其能够处理以前人类无法处理的复杂性和规模。Dash0 不是在取代 SRE(网站可靠性工程师),而是在增强他们的能力,让他们能够管理比以前复杂得多的系统。

我也很欣赏 Dash0 对开放标准的坚持。在一个很多公司试图通过专有技术锁定客户的时代,Dash0 选择了相反的路径:基于开放标准构建,让客户拥有自己的数据,提供灵活性而不是锁定。这种理念不仅在道德上是正确的,在商业上也是明智的。因为它降低了客户采用的风险,建立了长期的信任关系。

Balderton Capital 的合伙人 Rana Yared 说:"Dash0 构建了每个 AI 驱动公司都将依赖的基础设施层。Mirko 和团队结合了深厚的技术信誉和真正差异化的方法。我们相信 Dash0 将定义生产运营的下一个时代。"我完全同意这个判断。随着越来越多的公司采用 AI 来开发软件,他们也需要 AI 来运维软件。Dash0 正是在构建这个关键的基础设施。

从 Dash0 的故事中,我看到了几个关键教训:坚持开放标准、拥抱快速变化、从失败中学习、专注于真正的客户价值、建立强大的技术团队。这些原则在任何行业、任何时代都适用,但在 AI 时代显得尤为重要。因为当技术变化如此之快时,只有那些能够快速学习和适应的公司才能生存并繁荣。

Dash0 的 1.1 亿美元融资不仅仅是另一个融资新闻,它标志着可观测性行业进入了一个新纪元。从被动监控到主动管理,从人工排查到 AI 自主修复,从专有格式到开放标准,这些转变正在重塑我们如何构建和运营现代软件系统。我相信,几年后回头看,我们会意识到这是一个转折点。

结尾

也欢迎大家留言讨论,分享你的观点!

觉得内容不错的朋友能够帮忙右下角点个赞,分享一下。您的每次分享,都是在激励我不断产出更好的内容。

欢迎关注深思圈,一起探索更大的世界。

- END -

两个“特别坑”的AI产品创业方向,你知道吗

打开网易新闻 查看精彩图片

速度将成为AI时代唯一的护城河

打开网易新闻 查看精彩图片

a16z重磅预测:Vibe coding赢者通吃?错了,垂直专业化才是未来

打开网易新闻 查看精彩图片