灰度分布发生故障怎么办-灰度分布发生故障怎么办文档介绍内容-阿里云

代码逻辑场景

受影响的请求数否 0 限制最多发生故障的请求总数，每生效一次故障计数加1，累计发生故障请求数超出设定值后，请求则不再发生故障。填写数值小于等于0时，则表示不限制。受影响的请求占比（%）否 0 限制发生故障的请求数占所有应该发生故障...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息事件名称事件级别状态码状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因用户侧交换机设备故障。用户侧交换...

实例的节点故障处理机制

当节点发生故障后，系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明单节点实例适用于测试、培训、非核心业务等场景，生产环境建议使用副本集实例或分片集群实例以保障服务的高可用性。副本集图 1.副本集架构 ...

日志管理

如果发生故障，您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志在浏览器中，输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码，单击确认。单击关于，进入关于系统页面。找到日志信息区域，...

日志管理

如果发生故障，您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志在浏览器中，输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码，单击确认。单击关于，进入关于系统页面。找到日志信息区域...

基本概念

RPO Recovery Point Objective（数据恢复点目标），指应用发生故障时预期的数据丢失量。例如，RPO=15 分钟，表示在应用发生故障时，最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective（恢复时间目标），指故障发生时，在云...

JVM注入动态脚本

受影响的请求数否 0 限制最多发生故障的请求总数，每生效一次故障计数加1，累计发生故障请求数超出设定值后，请求则不再发生故障。填写数值小于等于0时，则表示不限制。受影响的请求占比（%）否 0 限制发生故障的请求数占所有应该发生故障...

替换主机

当主机发生故障后，如果您创建专属集群MyBase 时主机故障处理策略选择的是手动替换主机，则您可以通过手动替换主机来解除故障。前提条件专属集群MyBase 引擎的为MySQL，且主机存储类型为本地SSD盘。背景信息当主机发生故障时，系统会...

替换主机

当主机发生故障后，如果您创建专属集群MyBase 时主机故障处理策略选择的是手动替换主机，则您可以通过手动替换主机来解除故障。前提条件专属集群MyBase 引擎的为MySQL，且主机存储类型为本地SSD盘。背景信息当主机发生故障时，系统会...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，切换过程中，都可能会出现30秒左右的闪断，因此切换前请务必确保应用具备重连机制。...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，切换过程中，都可能会出现30秒左右的闪断，因此切换前请务必确保应用具备重连机制。...

应用场景

当其中一部分ECS实例发生故障后，CLB 会自动屏蔽故障的ECS实例，将请求分发给正常运行的ECS实例，保证应用系统仍能正常工作。同城容灾（多可用区容灾）为了提供更加稳定可靠的 CLB 服务，CLB 已在各地域部署了多可用区以实现同地域容灾。当...

功能概述

数据库发生故障后，无法在发生故障时定位到原因，可以通过智能压测功能，在克隆库上复现故障场景，定位故障原因。功能架构智能压测的功能架构如下图所示：源数据库：将要进行大促、将要业务变更或者已经发生故障，需要进行流量捕获的数据...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象光模块连接后，接口指示灯没有变为绿色。可能原因光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见光模块型号。说明目前仅SAG-1000设备支持光模块插入。解决方案通用多...

主备方案介绍

主备容灾：当云数据库HBase实例因不可预料的原因（例如设备故障、机房断电断网等）发生故障，容灾机制可用于保障数据的一致性和业务可用性。功能优势主备双活：请求低毛刺。故障自动容错。资源利用率高。主备容灾：支持云数据库HBase、EMR...

设置宕机自动迁移

若您未开启宕机自动迁移，DDH发生故障停机后，您需要提交工单申请置换一台健康的DDH。警告本地SSD型DDH（例如本地SSD型i2）不支持自行手动迁移和故障时自动迁移。如果本地SSD型DDH出现故障，您可以提交工单申请人工迁移，但迁移后本地...

什么是混合云容灾服务

RPO Recovery Point Objective（数据恢复点目标），指应用发生故障时预期的数据丢失量。例如，RPO=15 分钟，表示在应用发生故障时，最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective（恢复时间目标），指故障发生时，在云...

AI助手使用说明

安装AI助手并开启PAI的作业监控和恢复功能后，当训练任务发生故障或异常时，能自动上报故障信息、隔离问题节点，无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件已创建带有ACK灵骏托管版的集群。具体操作，请...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后，如果主盘发生故障，您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件反向复制前，请确保源云盘（主盘）已经从对应的ECS实例上卸载，即主盘处于未挂载状态。具体...

灾备规划

RTO和RPO要求应用容灾有两个核心的指标：RPO：指应用发生故障时可以容忍的数据丢失量。数据越重要，RPO就要求越小。RPO越小，往往要求数据备份、复制频率更高，对生产环境、网络的压力也会越大，成本通常也越高。RTO：指故障发生后，期望...

响应云盒维修事件

当云盒中的硬件设备发生故障需要更换时，阿里云会向您发送云盒维修事件通知，您需要授权同意阿里云上门更换并维修硬件设备。本文为您介绍云盒维修相关的流程，以及如何响应云盒维修事件。背景信息配置云盒计算资源时，您需要配置一定的...

标准架构

主节点提供日常服务访问，从节点提供HA高可用，当主节点发生故障，系统会自动在30秒内切换至从节点，保证业务平稳运行。标准架构高可用类型的特点如下：可靠性服务可靠采用双机主从（master-replica）架构，主从节点位于不同物理机。主...

通过一致性复制组实现容灾恢复

当生产站点发生故障时，将开启读写权限的容灾站点中云盘挂载到临时创建的ECS实例上继续运行业务，直到生产站点故障修复完成。警告故障切换功能会暂停异步复制功能，您需要确保您的生产站点发生故障时再使用故障切换功能，避免数据丢失。...

名词解释

这种模式下，两个城市的三个数据中心互联互通，如果⼀个数据中心发生故障或灾难，其他数据中心可以正常运行并对关键业务或全部业务实现接管。命名空间多活命名空间MSHA Namespace，是一个逻辑租户的概念，用于进行租户粒度的管控配置和云...

功能概览

当主系统发生故障时，业务系统切换到容灾系统，有效避免了地域性灾害导致的系统故障，保障业务的可用性，满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息，请参见 ...

功能概览

当主系统发生故障时，业务系统切换到容灾系统，有效避免了地域性灾害导致的系统故障，保障业务的可用性，满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息，请参见云...

跨地域容灾

容灾系统部署在阿里云的两个地域中，当生产站点发生故障（例如海啸、地震）时，业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障，有效避免了地域性...

故障演练

例如，模拟在高速通道冗余链路中的一条链路发生故障时，网络流量会自动切换至其他冗余链路的场景。借助该工具，您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要故障演练会通过将被演练的资源关闭，使资源处于人工构造的故障...

云盘异步复制概述

启动云盘异步复制功能通过异步复制功能实现容灾恢复您创建并启动云盘异步复制关系后，如果主盘发生故障，您可以通过异步复制提供的故障切换以及反向复制功能对主盘进行容灾恢复。通过异步复制功能实现容灾恢复删除云盘异步复制关系创建...

GTM如何实现异地容灾

两地三中心容灾架构，是指在同城双中心的基础上，在异地的城市建立一个备份的灾备中心，用于双中心的数据备份，当双中心出现自然灾害等原因而发生故障时，异地灾备中心可以用备份数据进行业务的恢复。目标读者企业网络部、业务运维部工作...

异地应用双活切流

在⼀个数据中心发生故障或灾难的情况下，将流量切换到其他数据中心，其他数据中心可以正常运行并对关键业务或全部业务进行接管，实现故障灾难场景的业务快速恢复。本文将介绍在异地应用双活中如何创建切流任务并查看切流详情。前提条件 ...

故障复盘

复盘文档一般包含以下内容：故障简述：故障概述、影响面、处理人等故障背景：故障发生时的业务链路故障时间线：着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点故障原因分析：建议先一句话总结，再进行...

FAQs

答：经过测试团队对GTM多次测试验证，当应用服务发生故障时，GTM能在 3分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因，如使用不同的拨测平台、...

常见问题-FAQ

答：经过测试团队对GTM多次测试验证，当应用服务发生故障时，GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因，如使用不同的拨测平台...

流水单据型业务场景多活实践

在北京单元发生故障的情况下，可以使用MSHA切流功能将受影响的用户流量切换到另外的单元，进行快速业务恢复。说明这里区别于传统的解决思路，不是去排查、处理和修复故障，而是立即使用切流进行恢复，将业务恢复和故障恢复解耦。容灾切换...

步骤五：应用容灾

确保操作人员熟悉容灾恢复流程，当主站真正发生故障时，操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练：在受保护服务器页签，单击要启动容灾演练服务器右侧对应的操作列表下的容灾演练。在容灾演练页面，选择恢复网络、...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下，可以使用MSHA切流功能将受影响的用户流量切换到另外的单元，进行快速业务恢复（这里区别于传统的思路，不是去排查、处理和修复故障，而是立即使用切流进行恢复，将业务恢复和故障恢复解耦）。容灾切换预期：将...

跨地域容灾

容灾系统部署在阿里云的两个地域中，当生产站点发生故障（例如海啸、地震）时，业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障，有效避免了地域性...

跨可用区容灾

确保操作人员熟悉容灾恢复流程，确保在主站真正发生故障时，操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练：在受保护服务器页签，单击要启动容灾演练服务器右侧对应的操作列表下的容灾演练。在容灾演练面板，选择恢复...

EMR Kafka磁盘故障运维

当磁盘发生故障时，应及时完成相关故障的处理，及时恢复集群的容错能力。磁盘运维概述本文从磁盘监控和磁盘故障恢复角度来介绍磁盘运维策略。磁盘监控以下内容从Kafka服务层面以及ECS系统层面来简单了解一下磁盘的监控策略。Kafka服务...

灰度分布发生故障怎么办

新品推荐