华为云运维中心(Cloud Operations Center,简称COC)为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载华为云确定性运维业务场景,提供变更管理、批量运维等核心特性,实现在安全合规的前提下,提升用户运维能力成熟度和云上运维效率。
统一资源管理
应用管理:提供应用和资源关联关系建模能力,满足用户云上资源的集中式管理要求,降低管理成本。
资源管理:同步并纳管用户在云平台上使用的资源实例,构筑资源运维能力底座。
配置管理:提供应用和资源视角的管理能力,以及参数配置集中式看护、全生命周期管理的能力。
合规性管理:资源运维提供批量的补丁扫描修复能力,安全合规先行,兼顾高效。
全方位变更管理
方案评审:支持变更方案标准化(Standard Operating Procedure,简称SOP),将变更方案明确并电子化,经评审后归档。支持规则和流程解耦,保证变更执行过程不走样,同时将变更方案沉淀。
变更审批:按照预设审批流程审批变更单,保障变更方案可靠性、时间合理性、流程合规性。
风险评估:基于场景规则、流程规则、业务规则对变更进行管控,提前识别和拦截变更风险;通过变更日历实现变更冲突检测,降低服务间变更依赖导致的变更风险。
实施保障:按预定方案执行变更,变更步骤标准化、可观测,变更异常及时介入处理,实现变更实施全过程可控、可视、可管。
确定性故障管理
统一事件中心:提供事件发现、事件处理、恢复验证及持续改进的全流程标准化机制。
承载Warroom和故障回溯能力:现网事件智能启动Warroom,缩短故障处理非必要耗时,指挥中心实时观测故障处理进展。故障回溯实现问题总结和经验沉淀,客户问题不重犯,缩短故障恢复MTTR。
支持响应预案:支持客户对已知故障制定响应预案,通过预案自动化帮助客户处理确定性问题,实现已知问题快速恢复。
故障模式:融合专业风险分析方法和专家知识库,积累故障模式库,帮助客户分析云应用存在的潜在风险、传承运维经验。
韧性中心优化
全生命周期风险管理:覆盖部署态和运行态两部分的风险治理,贯穿应用和资源全生命周期,将华为云多年沉淀的动态清零风险管理经验使能用户。
使能主动运维:通过性能压测、应急演练/混沌工程、韧性评估等主动运维手段提升客户关键业务的质量和韧性。
丰富的故障演练武器:沉淀华为云实践经验,内置50个+演练攻击武器,赋能客户模拟复杂多样的业务受损场景并制定应对策略。
提升应用高可用能力:PRR(Production Readiness Review 生产就绪程度评审),承载华为云SRE对云应用上线评审的最佳实践,提供在线评审电子流和评审项,提升应用高可用能力。
产品优势
一站式运维平台
- 提供集成式运维能力,支持集中管控和运维。
- ITSM、ITOM、专家服务相互协同,形成合力。
- 无需多平台间跳转,站内闭环,夯实一站式体验。
一体化解决方案
- 化零为整,原子化运维能力实现有机融合。
- 沉淀华为云运维专家经验,提供场景化运维解决方案。
- 安全生产、运维大脑、故障管理等优秀实践使能客户极简运维。
一朵云使用体验
- 构筑全场景资源管理驾驶舱,覆盖华为公有云、客户IDC等场景。
- 提供多视角数据呈现能力,挖掘数据价值,辅助整体运维决策。
- 云上运维能力延伸至客户IDC,淡化云边界,提升运维效率。
应用场景
运维态势感知BI
面向不同角色运维人员的专属运维BI看板,辅助运维优化改进和洞察决策。
- 指标项丰富:预置接入30个+运维指标,构建7张运维态势感知大屏,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。
资源全生命周期管理
提供资源定义、申请、发放、运维、变配&续期、回收等全生命周期管理,构筑统一资源管理驾驶舱。
- 全生命周期管理:打通用户资源管理全旅程断点,提升用户资源管理流畅度和运维效率。
- 资源管理驾驶舱:从全局视角实现用户资源可视化管理,支持多云和跨账号集中运维能力。
变更风控&作业可信
融合华为SRE安全生产最佳实践的管控模型,助力客户作业可信和稳定可靠。
- 全方位作业可信:构筑人员风险评估、高危命令拦截和自动化稽查能力,从事前、事中、事后逐层拦截变更风险,实现全方位运维作业可信。
- AI加持风险评估:首创人员胜任力模型和OREO高危操作识别算法,AI加持消减作业风险。
标准化故障管理
标准化故障管理流程,加持WarRoom驾驶舱,实现故障高效协同和快速恢复。
- 标准化流程:华为云标准故障处理流程服务化,通过WarRoom实现运维、研发等多兵种协同作战,响应预案提升故障处理效率。
- 运维知识库:基于历史故障和专家经验构筑运维知识库,实现已知故障快速恢复,未知故障沉淀经验。
智能化混沌演练
全旅程混沌工程解决方案,快速评估应用潜在韧性风险,持续看护应用架构。
- 端到端混沌工程方案:从客户实际业务场景出发,按照风险分析、应急预案、演练执行、演练复盘4个维度,提供端到端混沌演练能力。
- 故障模式库:首创基于容错视角的故障场景分析方法,沉淀华为云SRE多年的故障模式库,用户开箱即用。
热门跟贴