应用场景

当可用区A发生故障时,用户访问流量将只转发至备可用区内的ECS实例。此种部署既可以避免因为单个可用区的故障而导致对外服务的不可用,也可以通过不同产品间可用区的选择来降低延迟。如果您采取如下图所示的部署方案,即在 CLB 实例的主...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:在左侧导航栏,选择 连续复制型容灾>云上容灾。在页面右上角,选择容灾站点对。单击容灾中心的 受保护服务器 页签。单击...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

实例的节点故障处理机制

当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于测试、培训、非核心业务等场景,生产环境建议使用副本集实例或分片集群实例以保障服务的高可用性。副本集 图 1.副本集架构 ...

基本概念

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<文件网关IP地址>访问本地文件网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域...

JVM注入动态脚本

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

单实例快速恢复

该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。节点恢复速度在一分钟左右,当表数量明显增加时,恢复时间会更长。Hologres...

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

AI助手使用说明

安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件 已创建带有ACK灵骏托管版的集群。具体操作,请...

什么是混合云容灾服务

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

响应云盒维修事件

当云盒中的硬件设备发生故障需要更换时,阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。本文为您介绍云盒维修相关的流程,以及如何响应云盒维修事件。背景信息 配置云盒计算资源时,您需要配置一定的...

高可用和容灾设计

可通过集群可读地址访问备节点,在发生故障切换时,RDS的高可用系统会自动执行以下三个步骤:将一个备节点提升为主节点,该备节点从集群可读地址中移除,同时清除该备节点上的可读连接,此时集群可读地址会发生闪断。故障主节点从集群读写...

通过一致性复制组实现容灾恢复

当生产站点发生故障时,将开启读写权限的容灾站点中云盘挂载到临时创建的ECS实例上继续运行业务,直到生产站点故障修复完成。警告 故障切换功能会暂停异步复制功能,您需要确保您的生产站点发生故障时再使用故障切换功能,避免数据丢失。...

更新场景音频配置

该参数由以下字段组成:enableAgc:(可选)3A算法的智能增益算法开关。0:不开启(默认值);1:开启。enableAns:(可选)3A算法的智能降噪算法开关。0:不开启(默认值);1:开启。ansMode:(可选)智能降噪算法的模式,该字段只有在 ...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

故障演练

例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过将被演练的资源关闭,使资源处于人工构造的故障...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

常见问题-FAQ

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台...

FAQs

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM能在 3分钟左右 准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、...

流水单据型业务场景多活实践

在北京单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复。说明 这里区别于传统的解决思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦。容灾切换...

步骤五:应用容灾

确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 页面,选择 恢复网络、...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

创建DDH

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
风险识别 智能开放搜索 OpenSearch 负载均衡 地址标准化 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用