订阅事件通知

订阅范围:产品 选择 云数据库Redis版、事件类型 选择 维护、事件名称 选择 实例主备切换(故障切换)、事件等级 选择 严重(Critical),应用分组、事件内容 和 事件资源 均不设置,表示订阅本账号内所有应用分组中的所有 Redis 和 Tair ...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

ARMS告警精细管理最佳实践

而由于人员的不稳定性还需要对这一份告警的配置进行动态调整,这对于告警规则的维护将是巨大的困难。ARMS告警管理如何应对大规模系统的告警?解耦告警配置与通知配置 与传统告警不同,ARMS告警将告警规则分成告警配置和通知配置。通过配置...

关停或启动网站站点

网站完成维护或者故障排查后,需要您再次启动网站站点,确保网站恢复正常运行。本文为您介绍关停或启动网站站点的方法。背景信息 网站的运行状态包括 运行中 和的 已停止 两种状态。运行中:表示站点正常运行中,网站页面可以正常访问。已...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

混合云解决方案

如果MASTER 宕机,发生故障转移,此时SLAVE如果要提供服务,日志读取器会等待镜像日志先同步,再做发布,但如果MASTER发生硬件故障,此时SLAVE需要打开一个跟踪标记1448,在镜像故障的情况下可以继续分发数据。说明 1448标记用于在事务...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

基本概念

故障管理 网络故障的发现、分析、定位等维护管理,包括告警信息的收集入库、规则匹配、关联分析以及告警清除等一系列流式处理过程。Netconf netconf协议一般用于网络业务配置,使用结构化可描述语言实现快速的网络设备下发。gRPC 高性能、...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

冷备操作手册

在后续运行中,如一体机发生硬件故障,本文档描述如何一键替换主机,快速恢复现场业务。一 支持声明 冷备支持机型 物业管理一体机-停车版、物业管理一体机-人行版、物业管理一体机-视频版、物业管理一体机-EBA版、物业管理一体机-通行版、...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

为RDS创建灾备实例

当RDS实例所在可用地域发生故障时,可基于灾备实例快速恢复服务。应用场景 创建RDS灾备实例可以为主实例提供数据备份和灾难恢复保障,当主实例出现故障或不可用时,灾备实例将自动接管数据服务,保证业务的连续性和可用性。风险等级 默认...

主从(备)切换原因

实例故障 阿里云检测到实例发生故障,无法正常使用,系统会发起主从(备)切换,及时恢复业务正常运转,缩小故障影响范围。主从(备)切换完成后,实例状态会显示运行中,您不需要进行任何操作,实例可以正常运行。您可以在 服务可用性 ...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

什么是混合云容灾服务

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

为什么实例会发生主备切换?

实例异常:阿里云检测到实例发生故障,无法正常使用时,系统会立即触发主备切换,及时恢复实例,缩短故障影响时长。宿主机下线或实例异常导致的主备切换会以站内信或邮件等形式通知到您,通知内容如下:【阿里云】尊敬的*:您的云数据库...

灾备规划

RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,RPO就要求越小。RPO越小,往往要求数据备份、复制频率更高,对生产环境、网络的压力也会越大,成本通常也越高。RTO:指故障发生后,期望...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

集群高可用架构推荐配置

多可用区的地域:所有托管组件均严格采用多副本、多AZ均衡打散部署策略,确保在单个可用区或节点发生故障时,集群仍然能够正常提供服务。单可用区地域:所有托管组件均严格采用多副本、多节点打散部署策略,确保在单个节点发生故障时,集群...

安全注意事项

安装、操作、维护过程中,为避免发生划伤、磕碰、触电等安全事故的发生,请佩戴如下图所示专用防护设备和绝缘工具。安装注意事项 边缘一体机应在符合 安装环境要求 的环境下使用,否则可能造成设备故障,由此引发的设备功能异常或部件损坏...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

SAP系统高可用环境维护指南

SAP高可用环境维护概述 SAP HANA高可用常见维护场景 1.主节点异常后处理 2.备节点异常后处理 3.主备节点停机维护 4.主节点停机维护 5.备节点停机维护 版本管理 版本 修订日期 变更类型 生效日期 1.0 2019/4/15 1.1 2019/7/30 1.更新故障...

故障演练

但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有太多的机会验证,往往都是在真实故障中暴露。故障演练就是这个背景下诞生的,沉淀通用的故障场景,...

产品简介

当前事件:当发生涉及区域性或多产品的故障时,阿里云健康看板会在页面头部重点显示事件信息。事件详情:每个事件都会尽可能详细的描述(受影响产品、受影响地域,事件进展、问题报告等),以帮助客户理解其对自身应用程序和服务的影响程度...

I-V曲线诊断

光伏阵列故障状态说明 光伏智能运维需要定期检查和维护光伏阵列,光伏阵列故障相关说明如下。光伏阵列部分遮挡 光伏阵列在发电过程中受到外界因素的干扰出现部分遮挡,是光伏发电中一种常见的故障类型,其示意图如下所示。当出现部分遮挡时...

安全响应

应急响应通常是安全事件发生后,或正在发生过程中,采用的一系列延缓攻击或阻断攻击的流程、手段和方法。应急响应也包含前、中、后三个节点。通常情况下我们将应急响应的阶段划分如下:应急响应前:应制定应急响应事件的分类分级、预案、...

托管节点池节点自动恢复

当节点的运行状态发生变化并持续一段时间后,ACK将判定该状态符合故障状态,存在节点故障。当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后...

AIOps 解决方案专家服务内容说明

根据智能AI算法和阿里多年积累的AIOps经验,在故障发生后,提供自动化解决方案。在方案设计中我们提供包括时序预测和根因分析、历史数据预测的3大类算法场景的设计,更多具体算法详见《10.1算法列表》《智能故障发现设计方案》3 定制化业务...

产品简介

什么是运维事件中心 运维事件中心是企业业务连续性的运营管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能;一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应...

服务等级说明

服务等级说明 数据总线服务等级协议 本服务等级协议(Service Level Agreement,以下简称“SLA”)规定了阿里云向客户提供的数据总线(简称“数据总线”)的服务可用性等级指标及赔偿方案。1.定义 1.1 服务周期 一个服务周期为一个自然月。...

配置变更风险管理

勤于梳理且善用这些维度,能减少在配置管理过程中发生失误,提高系统稳定性。配置组织方式 dataId 用来表示一组相关的 key=value 的配置项的集合。规范 dataId 命名,例如:com.company.trade.threadpool.params,trade.p1.props。group ...

应用场景

通过温度传感器对整个风机的温度测点进行实时监控,并对海量温度数据进行深度学习,构建风机故障检测与感知预测模型,最终做到提前1-2周识别风机微小故障并预警,单台风机单次重大事件维护成本大大降低。生产工艺优化 您可以使用工业大脑...

主备切换

RDS在发生异常触发高可用切换时,应用端长连接可能无法感知到连接状态变化,如果没有设置socket超时时间,应用程序会一直等待数据库返回结果,通常会等到几百秒后才会断连,期间数据库的部分连接无法正常工作,SQL会出现大量执行异常。...

阿里云工业大脑服务等级协议

本服务等级协议(Service Level Agreement,以下简称“SLA”)规定了阿里云向客户提供的工业大脑产品的服务可用性等级指标及赔偿方案。特别提示您本服务等级协议仅适用于工业大脑产品。1.定义 1.1 服务周期:一个服务周期为一个自然月,如...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 物联网平台 数据库审计 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用