功能特性

专线+Internet备份:智能接入网关支持Internet链路和专线互为备份链路,当主用链路发生故障时,自动切换至备用链路接入阿里云。说明 目前仅 SAG-1000支持专线功能,SAG-100WM不支持专线功能。更多信息,请参见 什么是高速通道。路由方式 ...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

多可用区部署

当主实例1发生故障或者可用区A不可用时,用户将访问的连接切换至备实例2或者可用区B,从而实现高可用,主备容灾的高可用架构图如下所示。主备容灾的方案虽然能够满足大部分用户的高可用需求,但是这种主备容灾方案并不适用所有的业务,存在...

轻量应用负载均衡概述

当其中一部分轻量应用服务器发生故障后,负载均衡会自动屏蔽故障的轻量应用服务器,将请求分发给正常运行的轻量应用服务器,保证应用程序仍能正常工作。弹性管理应用程序的服务能力。您可以根据业务发展的需要,自行添加或移除轻量应用负载...

跨地域灾备

同时MaxCompute统一元数据能力支持元数据跨地域高可用,则当主集群地域发生故障且无法恢复时,通过修改项目归属地域的元数据,将项目快速切换到备份集群地域,实现业务的无缝恢复,示意图如下所示。重要 目前跨地域灾备功能处于邀测阶段,...

本地盘最佳实践

如果本地盘发生故障、物理服务器发生宕机,或者人为误操作,本地盘会丢失数据。请勿在本地盘上存储需要长期保存的业务数据。但云盘采用分布式三副本机制,能防止意外硬件故障导致的数据不可用。如果应用没有多节点数据冗余架构,强烈建议您...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

一致性复制组概述

容灾站点 除了生产站点以外另外建立容灾站点,当生产站点发生故障时,容灾站点可以接管业务,实现业务不间断。恢复点目标(RPO)由于云盘异常可能丢失的数据量,以时间为单位,是异步复制功能的数据指标之一(一致性复制组功能的RPO默认为...

健康检查

警告 关闭健康检查后,ALB 不再检查后端服务器,一旦某台后端服务器发生故障,则无法实现访问流量自动切换至其他正常的后端服务器。如延长健康检查的间隔时间,后端服务器出现故障时,ALB 发现故障后端服务器的时间也会变长。方式二:通过...

强弱依赖治理最佳实践

通过以上业务依赖的预判可以得出以下结论:前端对商品推荐服务预判为弱依赖,表示当推荐服务发生故障时前端正常访问不应该受阻。在购物链路中,商品服务product对商品数据库product-mysql预判为强依赖。表示如果扣减库存失败,则应该阻断下...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 面板,选择 恢复...

DATASOURCE:ECS:DedicatedHosts

无 ActionOnMaintenance String 当专有宿主机发生故障或者在线修复时,为其所宿实例设置迁移方案。取值:Migrate:迁移实例到其他物理机并重新启动实例。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿主机后,迁移实例到其他物理...

网络架构容灾

当地址池中地址发生故障时,HealthCheck模块会准确的检测到异常情况并与DNS交互(如下图中序号3所示),摘除故障地址(如下图中序号4所示),这样用户端会自动解析到可用的地址池(如下图中序号5所示)。并当故障地址恢复时,自动恢复至...

EMR Kafka磁盘故障运维

当磁盘发生故障时,应及时完成相关故障的处理,及时恢复集群的容错能力。磁盘运维概述 本文从磁盘监控和磁盘故障恢复角度来介绍磁盘运维策略。磁盘监控 以下内容从Kafka服务层面以及ECS系统层面来简单了解一下磁盘的监控策略。Kafka服务...

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

数据库代理常见问题

数据库代理采用双主节点的高可用架构,流量连接按照1:1比例分发到两个节点当中,如果其中一个节点发生故障,将由另一个节点承担全部流量,并会自动触发故障节点重搭恢复任务,以确保数据库服务的高可用性。数据库代理的性能会随着代理连接...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

主从实例读写分离部署(共享存储)

该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。Hologres从V1.1版本开始,采用全新恢复机制,节点恢复速度在一分钟左右,比...

组复制简介

数据 强 一致性 在组复制中,事务总是先传输到集群中其他节点,然后写入Binlog文件,这保证无论主节点在什么时刻发生故障,重新启动后数据都不会比集群选出的新主节点多。旧主节点故障重启后,能够自动加回集群,拉取它缺失的Binlog,就...

高性能版实例

即使计算节点发生故障,也可以保证实例无数据丢失。高可用 AnalyticDB PostgreSQL版 高性能版由于减少了一个副本,在高可用方面出现了一些下降,在物理机故障等极端情况下,集群恢复的时间会变长(8小时以内)。高性能版通过ESSD多副本技术...

源为PolarDB-X的功能规范和约束说明

源端执行大量DDL操作、网络、目的库性能等问题,可能会导致DTS任务存在延迟,此时如刚好遇到机房故障,且同步或迁移至目标库的最后一条数据的时间戳与故障发生时的时间戳之差大于RPO(如5分钟),那么切流需要非常谨慎,建议您暂时不要执行...

源为PolarDB-X的功能规范和约束说明

源端执行大量DDL操作、网络、目的库性能等问题,可能会导致DTS任务存在延迟,此时如刚好遇到机房故障,且同步或迁移至目标库的最后一条数据的时间戳与故障发生时的时间戳之差大于RPO(如5分钟),那么切流需要非常谨慎,建议您暂时不要执行...

云监控告警

事件名称 事件所属类型 说明 IP流量告警 数据监控告警 您可以设置数据监控报警通知,及时获知指标数据发生的异常,并在发生故障时及时发现问题,缩短故障处理时间,以便尽快恢复业务。连接数告警 QPS告警 状态码告警 DDoS黑洞事件告警 事件...

网关一体机告警介绍

本文介绍网关一体机中磁盘故障、电源故障等硬件告警,以及CPU使用率、内存使用率等软件告警信息。监控项 报警阈值 报警通道 恢复是否通知 疲劳度 是否实时 CPU使用率 一分钟内平均使用率超过95%客户邮箱 是 每日最多5封 是 内存使用率 一...

归档存储服务等级协议

赔偿方案 阿里云对用户存在故障的每个Archive按不可用时间的100倍赔偿,即赔付金额=发生故障的Archive故障前24小时平均每分钟费用×不可用时间×100倍;其中:(1)赔偿只针对使用归档存储服务已产生费用的用户,以归档存储代金券的形式赔偿,...

新功能发布记录

2023-06-30 云盒计算资源配置最佳实践 维修事件 云盒中的硬件设备发生故障需要更换时,阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。2023-06-30 响应云盒维修事件 新增地域 新增以下两个地域:华东2...

集群高可用架构推荐配置

多可用区的地域:所有托管组件均严格采用多副本、多AZ均衡打散部署策略,确保在单个可用区或节点发生故障时,集群仍然能够正常提供服务。单可用区地域:所有托管组件均严格采用多副本、多节点打散部署策略,确保在单个节点发生故障时,集群...

容灾管理服务介绍

容灾切换:模拟故障发生时,验证业务系统是否能够达到预期的灾备效果。容灾切回:故障恢复后,将资源切回到之前的状态,验证系统的灾难恢复预案是否合理。相关概念 容灾计划 当CADT应用需要进行容灾演练时,需要为其创建容灾计划,加入了容...

什么是物模型

设备发生故障时的温度、时间信息;设备告警时的运行状态等。事件可以被订阅和推送。物联网平台支持为产品定义多组功能(属性、服务和事件)。一组功能定义的集合,就是一个物模型模块。多个物模型模块,彼此互不影响。物模型模块功能,解决...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:登录 混合云容灾管理控制台。单击 切换到连续复制型容灾。在 概览 页面,单击目标容灾站点对。在容灾中心页面,单击 受...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

如何管理故障

故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...

DescribeDedicatedHosts-查询专有宿主机详细信息

1 ActionOnMaintenance string 当专有宿主机发生故障时,为其所宿实例设置迁移方案。取值范围:Migrate:专有宿主机整机迁移至另一物理服务器,并对故障前非关机状态的实例进行启动。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿...

DescribeDedicatedHosts-查询专有宿主机详细信息

1 ActionOnMaintenance string 当专有宿主机发生故障时,为其所宿实例设置迁移方案。取值范围:Migrate:专有宿主机整机迁移至另一物理服务器,并对故障前非关机状态的实例进行启动。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿...

故障应急协同

故障应急协同群 故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...
共有122条 < 1 2 3 4 ... 122 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用高可用服务 Node.js 性能平台 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用