来源:市场资讯

(来源:twt企业IT社区)

导读

企业通常拥有复杂的遗留系统,AI应用引入了新的组件(向量数据库、GPU集群、模型服务网关,流式计算)。运维团队监控基础设施(CPU/内存/网络/存储/存活),AI团队监控模型指标(准确率/漂移),业务团队关注KPI(转化率/客诉)。这些监控数据散落在不同的工具中,形成“数据孤岛”。当一个AI应用服务响应变慢且给出错误建议时,很难快速判断是网络问题、GPU过载、还是刚更新的知识库数据有误。如何破解这个难题?本文由两位同行给出了可落地的实践经验分享。

分享一 / 叶骄龙 某股份制银行 运维工程师

不少企业因为生产环境复杂存在数据孤岛问题,而造成这一问题的主要原因是历史遗留问题,不同系统、产品、设备都有自己的监控工具,而要实现全链路监控,形成全链路视图,主要是要定好目标,制定方案,统一标准。

1.定好目标是明确全链路监控视图的展示内容,端到端的程度,如要监控云平台上的一个交易系统业务,从业务监控工具可以获取到该业务交易量、交易响应时间等指标,从数据库监控工具上可以获取对应sql处理时间、事务处理效率,从云平台监控工具上可以获取到对应虚拟机的性能容量情况,有无性能瓶颈,从服务器、存储、交换机监控工具上可以发现有无硬件故障、有无性能隐患、端口有无报错等,确定整条链路上所需数据有无缺漏。

2.一般方案会选择考虑引入一款成熟的全套监控产品,可以实现全链路监控。但企业一般无法直接拿来就用,一方面是产品存在局限性,不会完全适配,大概率要做二次开发,如果生产环境复杂,适配工作难度较大,需要投入成本较高,可以考虑先做到统一纳管,多个版本迭代方式逐渐实现全链路监控。而统一纳管主要是将数据孤岛打通,以集中监控产品来进行数据统一收集,同时将数据要求和标准进行统一,在集中监控产品上做全链路视图

专家补充:

王洋 某基金公司 系统架构师:监控数据孤岛是一个业界难题,专家老师给出了一种切实可落地的方案。

张帆 某银行 项目经理:此回答非常有指导意义,全链路就不能有数据孤岛,因此首先考虑的是打破数据孤岛。

分享二 / 程宗憬 某城商行 系统工程师

这个问题产生的逻辑简单来说就是监控体系的演进速度,未能跟上技术从确定性调用到概率性生成的跃迁速度,导致运维认知与业务实际运行逻辑之间出现了断层。

传统IT时代,系统架构以确定性、稳态著称,监控体系是围绕"组件"和"资源"构建的体系缺乏统一的会话标识和跨域数据模型,无法将基础设施的抖动、模型的漂移、业务的结果关联到同一个"业务请求"时间轴上。所以构建端到端全链路视图的核心在于建立以"业务请求"为纽带的统一观测体系,打破传统按技术栈划分监控的割裂局面。

可选的方案包括分布式会话追踪技术,为每一次用户交互生成唯一的记录,并强制要求所有组件在日志、指标和链路数据中都透传此ID。一体化监控平台需在此基础上构建统一的语义数据模型,将基础设施的CPU抖动、GPU的利用率波峰、向量检索的召回延迟、模型推理的准确度得分以及业务侧的订单转化率等原本孤立的指标,全部关联到同一个业务请求链路上。从而在基础设施、模型表现与业务结果之间建立因果桥梁,真正弥合运维、AI与业务团队之间的数据鸿沟。

专家补充:

王洋 某基金公司 系统架构师:此回答贴近当前实践的情况,是可以参考的方案。另外就是在AI时代,在建设初期就要把这些指标考虑进去。