在新型电力系统加速建设的今天,电网信息系统规模从千万级代码跃升至十亿级,迭代周期不断压缩,系统安全稳定运行面临前所未有的压力。传统运维模式如同“事后救火”,代码缺陷潜伏、风险感知滞后、故障定位缓慢,历史故障中由代码缺陷引发的异常占比高达88%,根因定位平均耗时小时级,业务中断风险如影随形。

国网浙江电力迎难而上,创新打造信息系统主动式运维体系,自主研发“酷德”(CODE)代码审核智能体与“洛格”(LOG)日志分析智能体,形成了“一静一动、一治一防”的“中西医结合”智能防线:“酷德”如同西医,在建设期对代码进行深度“CT扫描”;“洛格”如同中医,在运行期对系统进行“望闻问切”。二者协同发力,推动运维模式从“事后救火、被动响应”向“事前预警、主动治理”根本性转变。

打开网易新闻 查看精彩图片

“西医”酷德:精准扫描,把缺陷拦截在上线之前

系统建设阶段,代码如同“黑盒”,原生缺陷长期潜伏,上线即“带病运行”。约70%的系统异常由数据库SQL性能问题引起,82%的网络安全漏洞由开源组件引入。传统第三方测试周期长、缺乏实际运行数据,难以在快速迭代中有效把关。

西医强调预防为主,通过定期体检、CT影像扫描等手段,在疾病尚未出现症状时发现病灶,从而实现“治未病”。“酷德”正是借鉴这一理念,在信息系统建设阶段对代码开展全面“体检”。它依托光明电力大模型,整合专家运行经验、SQL评价规则与CVE漏洞库,结合实际运行环境中的索引、表结构等数据模型,实现对SQL语句、JAVA源码、开源组件的全自动扫描,同步推送优化方案。

在支撑统一权限系统自主可控改造中,“酷德”对90万行代码进行全面审核,精准锁定103项源码风险,审核170条SQL语句并治理72项风险,历时三个月优化整改,核心接口响应时延降低60%。去年8月11日,国网首家实现全量229套系统一次性割接,原本计划3天的检修提前至12小时完成。

自2025年3月嵌入检修发布流程以来,“酷德”累计审核源码超5000万行,拦截缺陷SQL语句5177条、代码缺陷1.4万余项、三方组件缺陷1505项。自此,代码审核环节正式嵌入检修流程,近一年来,因系统检修导致的异常从2024年的7起直降至0起。SQL审核准确率达100%,噪音率由最初的58%下降至4%以下。“酷德”已先后在国家能源互联网大会、世界互联网大会亮相,并推广至安徽、新疆、宁夏等多家网省公司试用。

“中医”洛格:望闻问切,让风险消弭于未发之时

系统故障并非瞬时发生,往往有数小时的发展过程。能否借助人工智能手段提前感知风险,争取宝贵的“抢救”时间?浙江公司给出答案:“洛格”运行分析智能体。

“洛格”打通了监控指标、访问日志、运行方式、应用运行日志等海量异构数据,整合近三年的缺陷、异常、故障案例作为专家运维知识库。它借鉴中医“望闻问切”的理念,实现多源交叉验证:“望”:接入CPU、内存等监控告警数据;“闻”:分析业务系统访问日志,识别性能突变;“问”:查询系统运行方式台账,在海量数据中寻找关联线索;“切”:对应用日志深度分析,定位问题根因。由此,“洛格”形成两大核心能力:一是识别性能劣化趋势,提前预警潜在运行风险;二是针对运行异常快速分析定位根因,并给出处置建议。

今年1月30日16:55,正值月末月初营销算费业务高峰,“洛格”提前监测到营销网上国网业务异常请求(错误率和慢请求)呈上升趋势,而此时用户尚未反馈任何异常,系统也未触发明显故障告警。仅用3分钟到16:58,“洛格”便通过智能关联分析,快速判断异常原因为数据库内存硬件隐患,运维负责人立即组织检修更换内存条,在故障爆发前消除了潜在风险。

自2026年1月投入使用以来,“洛格”已累计预警系统性能劣化趋势13次,其中3次可能进一步导致系统异常或故障的发生。通过异常根因智能分析,运维人员快速定位问题并提前消缺,根因定位平均耗时由小时级缩短至5分钟以内,先于用户感知异常率达100%。

打开网易新闻 查看精彩图片

动静结合,构筑主动运维新防线

“酷德”与“洛格”,一个在建设期把住代码质量关口,一个在运行期实时感知健康状态;一个精准治理“已病”,一个见微知著“治未病”。通过这对“中西医”的协同发力,国网浙江电力系统故障率同比下降45.5%,根因定位耗时从小时级压缩至分钟级,运维效率与系统安全运行保障能力显著提升。下一步,国网浙江电力将持续深化智能体自学习能力,推动“酷德”审核关口前移至研发阶段,扩大“洛格”对全量重要系统的接入,最终实现“事前阻断、事中自愈、事后进化”的运维新范式,为新型电力系统的安全稳定运行贡献更多“浙江经验”。投稿人:詹佳雯、包迅格、杨冬

来源:中国日报网