系统故障干什么用的-系统故障干什么用的文档介绍内容-阿里云

跨地域容灾

容灾系统部署在阿里云的两个地域中，当生产站点发生故障（例如海啸、地震）时，业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域，提供容灾即服务，分钟级的高可靠的业务持续性保障，有效避免了地域性灾害导致的系统故障。

设计原则

面向风险的应急快恢原则在一些场景下，即使设计了各种技术手段去提高系统的冗余、保持业务的高可用，但还是避免不了生产系统故障的发生，所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台，实现故障风险实时发现、应急...

捷顺

DAS服务自动SQL限流和自动SQL调优，帮助DBA从救火员转向数据库架构师，有更多时间和精力帮助研发优化系统架构，审核数据库的变更和各种操作，进一步降低系统故障的概率。DAS服务自动对数据库实例进行治理，帮助捷顺科技把数据库的运维成本...

功能概览

生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障，有效避免了地域性灾害导致的系统故障。更多信息，请参见跨地域容灾。跨可用区容灾当生产站点因为不可抗力因素（比如机房...

设计原则

因此，数据容灾对于企业来说是非常必要的，数据灾备是企业保护核心数据的重要手段，能有效降低勒索病毒、系统故障、自然灾害和运维事故导致的数据丢失和损坏问题，同时满足行业安全和合规要求，可以保障企业的正常运行和稳定发展。...

跨地域容灾

生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障，有效避免了地域性灾害导致的系统故障。准备工作在实现跨地域容灾之前，您需要选择一个不同于生产环境的地域作为容灾目标地域...

跨地域容灾

生产站点和容灾站点部署在不同的地域，提供容灾即服务，RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障，有效避免了地域性灾害导致的系统故障。本文介绍跨地域容灾的操作步骤。前提条件在实现跨地域容灾之前，您需要选择一个不同于...

使用ASM构建分布式系统的容错能力

重要请勿频繁地重试或重试过长时间，避免出现级联的系统故障。解决方案 ASM支持使用虚拟服务定义HTTP请求重试策略。以下示例定义网格中的服务请求httpbin应用时，如果httpbin应用无响应或与httpbin应用建立连接失败，会重新请求httpbin...

使用ASM构建分布式系统的容错能力

重要请勿频繁地重试或重试过长时间，避免出现级联的系统故障。解决方案 ASM支持使用虚拟服务定义HTTP请求重试策略。以下示例定义网格中的服务请求httpbin应用时，如果httpbin应用无响应或与httpbin应用建立连接失败，会重新请求httpbin...

ECS系统事件概述

时长说明如下：通知修复故障的系统事件通常在10分钟内完成。突发故障、违规操作等非计划内因素导致的非预期运维事件，只有短暂的事件执行窗口期。ECS事件Code和云监控事件名称的格式 ECS事件Code、云监控事件名称遵循了一定的命名格式，...

应用场景

故障恢复通过ASM，可以轻松实现开箱即用的故障恢复功能：分布式系统存在高度复杂性，在基础设施、应用逻辑、运维流程等环节都可能存在稳定性风险导致业务系统的失效。提供了基于Istio的混沌工程能力，包括如何使用连接池配置和异常检测...

故障演练

为此每一层的系统都会面向失败做设计，对下游组件零信任，确保在故障发生时可以快速的发现和处理。但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度，沟通机制、容灾措施对上层的影响等问题，平时并没有...

基础管理FAQ

本文介绍创建或删除NAS文件系统、添加或删除挂载点等的常见问题。每个账号可以创建多少个文件系统、文件系统有什么限制？每个账号在单个地域内最多支持创建20个通用型NAS文件系统和200个极速型NAS文件系统。单个文件系统容量上限：通用容量...

节点诊断

容器智能运维平台构建了基于专家经验的故障诊断系统，并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式，节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项：包括Node检查、...

Pod诊断

容器智能运维平台构建了基于专家经验的故障诊断系统，并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式，进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项：包括Pod检查...

主备切换

实例底层主机故障阿里云检测到实例底层主机发生故障，例如进程异常中断、实例负载过高导致内存异常等无法正常使用时，系统会立即触发主备切换，及时恢复实例，降低故障影响时长。此类触发方式会以短信或站内信、邮件等形式通知到您，...

主备切换

实例底层主机故障阿里云检测到实例底层主机发生故障，例如进程异常中断、实例负载过高导致内存异常等无法正常使用时，系统会立即触发主备切换，及时恢复实例，降低故障影响时长。此类触发方式会以短信或站内信、邮件等形式通知到您，...

自动/手动主备切换

当系统发生故障时，PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换，指定一个只读节点为新的主节点。注意事项不论是自动切换还是手动切换，当只读节点未开启热备时，主备切换过程中可能会出现20~30秒左右的闪断，因此切换前请...

创建集群

背景信息关于专属集群MyBase 的更多介绍，请参见什么是云数据库专属集群MyBase。注意事项泰国（曼谷）仅支持SQL Server引擎。专属集群的超配指标值默认值如下：MySQL、SQL Server引擎的 CPU超配比默认值为：200%，Redis引擎的 CPU超...

创建集群

背景信息关于云数据库专属集群MyBase的更多介绍，请参见什么是云数据库专属集群MyBase。注意事项泰国（曼谷）仅支持SQL Server引擎。专属集群的超配指标值默认值如下：MySQL、SQL Server引擎的 CPU超配比默认值为：200%，Redis引擎的 ...

块存储FAQ

为什么用FIO测试性能时，会导致实例宕机？如何测试ESSD云盘的性能？SSD云盘问题 SSD云盘具备怎样的I/O性能？SSD云盘适用于哪些应用场景？是否支持将原普通云盘更换成SSD云盘？如何购买SSD云盘，I/O优化的实例及SSD云盘的价格是多少？购买...

什么是多活容灾

由于用户投入资金的数量限制，想用少的资金达到第6级容灾级别显然是有难度的，我们设计出的系统也只能是在现有的条件下尽量减少故障历时，尽量多的恢复数据，这也是衡量我们所设计出来的容灾系统质量的指标。实际的容灾系统设计过程中，...

什么是应用高可用服务AHAS

应用高可用服务（Application High Availability Service）是一款专注于提高应用高可用能力的SaaS产品，主要包含多活容灾、故障演练和流量防护三个独立的功能模块。其中流量防护已迁移至微服务治理服务MSE。多活容灾多活容灾MSHA（Multi-...

常见问题

A：PolarDB 是一个关系型数据库云服务，目前已在全球十多个地域（Region）的数据中心部署，向用户提供开箱即用的在线数据库服务。PolarDB 目前支持3种独立的引擎，分别可以100%兼容MySQL、100%兼容PostgreSQL、高度兼容Oracle语法，存储...

步骤七：故障切换

保护组进入增量复制状态后，您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型数据同步后切换该故障切换会先停止保护组中被保护的实例，并且等到所有被保护的实例停止后再进行最后一轮数据同步，等待数据同步...

集群系列

MySQL集群系列 RDS MySQL集群系列实例采用计算与存储分离、一主多备的架构，支持自动故障切换、任意备节点可切换为主节点、备节点可读、按需增删节点、变更节点配置、多可用区容灾、节点粒度的监控、集群节点拓扑管理等功能，同时还可启用...

自动或手动主备切换

当主实例发生故障或不可用时（例如操作系统错误、硬件故障等），系统会自动触发主备切换，主实例和备实例将进行互换，切换后实例地址保持不变，应用程序会自动连接到新的主实例（原备实例），从而保障业务的连续性和高可用性。此外，您还...

步骤七：故障切换

保护组进入增量复制状态后，您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型数据同步后切换该故障切换会先停止保护组中被保护的实例，并且等到所有被保护的实例停止后再进行最后一轮数据同步，等待数据同步...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时，您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点，进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件已创建ECS整机备份。具体操作，请参见备份ECS整机。背景信息云盘恢复...

为什么高可用系统会触发主备切换

在MongoDB实例的运行过程中，当高可用系统监测到实例中的某个节点不可用，将触发节点切换操作并以短信或站内通知的形式通知用户。收到的通知内容【阿里云】尊敬的*：您的云数据库MongoDB实例：dds-bp*（名称：*）出现异常，高可用系统已经...

企业单AZ架构升级到多AZ

多可用区部署的常见应用：关键业务系统：对于需要高可用性和连续性的关键业务系统，如金融服务、医疗保健和电子商务平台，多AZ部署可以确保系统即使在一个数据中心发生故障的情况下也能继续运行。容灾要求高的场景：当组织需要符合特定的...

基本概念

通过流量分发扩展应用系统对外的服务能力，通过消除单点故障提升应用系统的可用性。API 应用程序编程接口，是一些预先定义的函数，或指软件系统不同组成部分衔接的约定。API 分组用于将 API 进行逻辑的分组，分组下的 API 使用相同的分组...

创建MySQL集群

资源分配策略专属集群资源调度的默认分配策略：均衡分配：最大化追求更稳定的系统表现，优先从未分配资源或已分配资源较少的主机中分配资源。紧凑分配：最大化追求更充分的资源利用率，优先从创建时间较早且已分配资源较多的主机中分配...

Linux系统挂载NFS协议文件系统

创建NAS NFS协议文件系统后，您需要使用云服务器来挂载该文件系统，以实现多个云服务器共享访问文件系统的目的。本文介绍如何通过阿里云Linux ECS实例挂载NAS NFS协议文件系统。前提条件在创建文件系统的地域，已有可用的云服务器ECS...

服务等级目标SLO概述

阿里云服务网格 ASM提供了开箱即用的基于服务等级目标SLO（Service Level Objectives）的监控和告警能力，能够监控应用服务之间调用的延迟和错误率特征等。本文介绍SLO的相关概念。SLO是什么？服务等级指标SLI（Service Level Indicator）...

服务等级目标SLO概述

阿里云服务网格 ASM提供了开箱即用的基于服务等级目标SLO（Service Level Objectives）的监控和告警能力，能够监控应用服务之间调用的延迟和错误率特征等。本文介绍SLO的相关概念。SLO是什么？服务等级指标SLI（Service Level Indicator）...

测试与验证

在 PTS 平台上，您可以用较低的人力和资源成本，构造出接近真实业务场景的复杂交互式流量，快速衡量系统的业务性能状况，为性能问题定位、容量配比、全链路压测的流量构造提供帮助，进而提升用户体验，促进业务发展，实现企业的商业价值。...

监控、诊断和故障排除

相对于传统应用程序，开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本，但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息，帮助您深刻洞察程序行为，及时发现并快速定位问题。本文主要描述...

CLB健康检查FAQ

为了避免由于健康检查频繁失败引起的切换对系统可用性造成的冲击，健康检查只有在健康检查时间窗内连续多次检查成功或失败后，才会进行状态切换。更多信息，请参见配置和管理CLB健康检查。以下是TCP、HTTP和HTTPS监听建议使用的健康检查...

基础术语

通过流量分发扩展应用系统对外的服务能力，通过消除单点故障提升应用系统的可用性。IAM 蚂蚁科技身份访问管理（Identity and Access Management，IAM）控制台是管理成员、分配权限、管理身份源、查看操作记录的平台。OceanBase OceanBase ...

系统故障干什么用的

新品推荐