客户案例 > 案例详情
阿里云化身“智能云管”,助力中国联通首次实现大规模平台自主运维

自2022年联通阿里 MSP 团队成立,联通阿里 MSP 团队与阿里云 CRE 团队已实现一线运维人员快速融合相互调配,在应急保障、专项攻坚等方面实现了无障碍协同合作。目前已独立开展联通 5 个专有云平台的独立维护工作,包含变更、版本升级、容量管理、资源运营、智能运维工具开发等,累计生产变更 443 个,问题自解决率达到了 75%,全年零事故。

客户介绍

中国联通拥有覆盖全国、通达世界的现代通信网络和全球客户服务体系,主要经营电信业务,用户规模已达 4.2 亿。为拥抱数字化浪潮,中国联通同阿里云全面展开深入合作,将多个核心业务部署到阿里飞天云底座上,阿里云 CRE 团队长期为中国联通提供贴合客户需求的稳定性保障服务,伴随客户成长。

业务挑战

随着云上业务不断增多,中国联通为保障生产系统稳定,进一步加强自主掌控,更好的支撑联通业务,急需建立一支具备自主运维能力的团队。但做到自主运维绝非易事,必须要跨过“团队能力建设”、“运维规范 & 体系建设”、“工具平台建设”这3座大山。

阿里云的解决方案
人才建设

阿里云 CRE 团队总结多年运维联通专有云平台的经验,打造针对性的培训课程及实操作业场景、操作手册,联通阿里MSP团队将联通系统规划、应用特点、流量特征、调用关系等整理成专项课程,双方相互学习、取长补短,逐步成为既懂业务也懂平台的面向行业的技术专家。

稳定性建设

针对风险事件、故障场景,阿里云 CRE 团队与联通 MSP 团队基于数字化运维平台进行分析与挖掘,沉淀最佳实践,对应输出1100余篇解决方案,并结合专业的知识库系统呈现应急手册,常见问题均可通过历史案例得到解决,持续提升运维效率。

技术运营建设

结合实际运维体验,阿里与联通两个团队联合研发,建成统一事件管理、多云可观测性平台、库存水位一点看全等运维工具,让事件处置、问题发现、处置时效进行一体化的质量管理,使问题得到高效闭环,对历史问题可追溯,可沉淀,同时也极大提升了运维效率。

故障应急建设

阿里云 CRE 团队协同联通阿里MSP团队建立完善的故障应急体系,针对历史出现过或根据架构依赖关系失败场景提前进行识别,梳理出对应的应急预案体制,并在团队内进行定向的普及与应用、演练,确保最大程度的主动识别风险、处置风险,并在已发生异常事件中进行及时止损。

业务价值

自2022年联通阿里 MSP 团队成立,目前已独立开展联通 5 个专有云平台的独立维护工作,包含变更、版本升级、容量管理、资源运营、智能运维工具开发等,累计生产变更 443 个,问题自解决率达到了 75%,全年零事故。在团队合作上,联通阿里 MSP 团队与阿里云 CRE 团队可实现一线运维人员快速融合相互调配,在应急保障、专项攻坚等方面实现无障碍协同合作。