确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 页面,选择 恢复网络、...
实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...
在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...
如果本地盘发生故障、物理服务器发生宕机,或者人为误操作,本地盘会丢失数据。请勿在本地盘上存储需要长期保存的业务数据。但云盘采用分布式三副本机制,能防止意外硬件故障导致的数据不可用。如果应用没有多节点数据冗余架构,强烈建议您...
容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...
容灾站点 除了生产站点以外另外建立容灾站点,当生产站点发生故障时,容灾站点可以接管业务,实现业务不间断。恢复点目标(RPO)由于云盘异常可能丢失的数据量,以时间为单位,是异步复制功能的数据指标之一(一致性复制组功能的RPO默认为...
确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 面板,选择 恢复...
无 ActionOnMaintenance String 当专有宿主机发生故障或者在线修复时,为其所宿实例设置迁移方案。取值:Migrate:迁移实例到其他物理机并重新启动实例。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿主机后,迁移实例到其他物理...
当地址池中地址发生故障时,HealthCheck模块会准确的检测到异常情况并与DNS交互(如下图中序号3所示),摘除故障地址(如下图中序号4所示),这样用户端会自动解析到可用的地址池(如下图中序号5所示)。并当故障地址恢复时,自动恢复至...
当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...
确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...
数据库代理采用双主节点的高可用架构,流量连接按照1:1比例分发到两个节点当中,如果其中一个节点发生故障,将由另一个节点承担全部流量,并会自动触发故障节点重搭恢复任务,以确保数据库服务的高可用性。数据库代理的性能会随着代理连接...
确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...
该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。Hologres从V1.1版本开始,采用全新恢复机制,节点恢复速度在一分钟左右,比...
源端执行大量DDL操作、网络、目的库性能等问题,可能会导致DTS任务存在延迟,此时如刚好遇到机房故障,且同步或迁移至目标库的最后一条数据的时间戳与故障发生时的时间戳之差大于RPO(如5分钟),那么切流需要非常谨慎,建议您暂时不要执行...
源端执行大量DDL操作、网络、目的库性能等问题,可能会导致DTS任务存在延迟,此时如刚好遇到机房故障,且同步或迁移至目标库的最后一条数据的时间戳与故障发生时的时间戳之差大于RPO(如5分钟),那么切流需要非常谨慎,建议您暂时不要执行...
容灾切换:模拟故障发生时,验证业务系统是否能够达到预期的灾备效果。容灾切回:故障恢复后,将资源切回到之前的状态,验证系统的灾难恢复预案是否合理。相关概念 容灾计划 当CADT应用需要进行容灾演练时,需要为其创建容灾计划,加入了容...
多可用区的地域:所有托管组件均严格采用多副本、多AZ均衡打散部署策略,确保在单个可用区或节点发生故障时,集群仍然能够正常提供服务。单可用区地域:所有托管组件均严格采用多副本、多节点打散部署策略,确保在单个节点发生故障时,集群...
确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:在左侧导航栏,选择 连续复制型容灾>云上容灾。在页面右上角,选择容灾站点对。单击容灾中心的 受保护服务器 页签。单击...
通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...
故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...
1 ActionOnMaintenance string 当专有宿主机发生故障时,为其所宿实例设置迁移方案。取值范围:Migrate:专有宿主机整机迁移至另一物理服务器,并对故障前非关机状态的实例进行启动。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿...
1 ActionOnMaintenance string 当专有宿主机发生故障时,为其所宿实例设置迁移方案。取值范围:Migrate:专有宿主机整机迁移至另一物理服务器,并对故障前非关机状态的实例进行启动。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿...
故障应急协同群 故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...
示例使用的是Java Base64编码方法。Signature=Base64(HMAC-SHA1(AccessSecret,UTF-8-Encoding-Of(StringToSign)))说明 计算签名时,使用的Key就是您的 AccessKeySecret 并加上一个与号&字符(ASCII:38)。使用的哈希算法是SHA1。计算签名值...
示例使用的是Java Base64编码方法。Signature=Base64(HMAC-SHA1(AccessSecret,UTF-8-Encoding-Of(StringToSign)))说明 计算签名时,使用的Key就是您的 AccessKeySecret 并加上一个与号&字符(ASCII:38)。使用的哈希算法是SHA1。计算签名值...
示例使用的是Java Base64编码方法。Signature=Base64(HMAC-SHA1(AccessSecret,UTF-8-Encoding-Of(StringToSign)))说明 计算签名时,使用的Key就是您的 AccessKeySecret 并加上一个与号&字符(ASCII:38)。使用的哈希算法是SHA1。计算签名值...
以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...
对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...
但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有太多的机会验证,往往都是在真实故障中暴露。故障演练就是这个背景下诞生的,沉淀通用的故障场景,...
而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...
单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。
生成应用服务时,如果服务编码已存在,服务本身信息不做修改,并继续判断方法是否存在,如果方法编码也相同则不再判断出入参,该方法将不再重复生成。覆盖已有数据 编码相同的数据将被覆盖,包括名称和类型。不在生成范围内的数据不受影响...
生成应用服务时,如果服务编码已存在,服务本身信息不做修改,并继续判断方法是否存在,如果方法编码也相同则不再判断出入参,该方法将不再重复生成。覆盖已有数据 编码相同的数据将被覆盖,包括名称和类型。终止生成数据 只要应用服务、...
多活流量必须经过接入层,以便在故障发生时,通过接入层切换入口流量。比例分流:接入层支持按比例将流量分流到机房。特殊场景下,可以将机房流量切零,从而实现故障情况下的流量切换。精准路由:接入层支持根据HTTP请求Header/Cookie/...
告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...
告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...
生成应用服务时,如果服务编码已存在,服务本身信息不做修改,并继续判断方法是否存在,如果方法编码也相同则不再判断出入参,该方法将不再重复生成。覆盖已有数据 编码相同的数据将被覆盖,包括名称和类型。不在生成范围内的数据不受影响...
根据智能AI算法和阿里多年积累的AIOps经验,在故障发生后,提供自动化解决方案。在方案设计中我们提供包括时序预测和根因分析、历史数据预测的3大类算法场景的设计,更多具体算法详见《10.1算法列表》《智能故障发现设计方案》3 定制化业务...
告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkSwitched WARN up Device Wan Link Switched 可能原因 WAN链路原有链路发生了故障,切换到备用链路。处理方法 提醒用户WAN链路发生了切换,用户查看原有WAN链路并决定是否主动切...