流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

创建DDH

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

容灾管理服务介绍

容灾切换:模拟故障发生时,验证业务系统是否能够达到预期的灾备效果。容灾切回:故障恢复后,将资源切回到之前的状态,验证系统的灾难恢复预案是否合理。相关概念 容灾计划 当CADT应用需要进行容灾演练时,需要为其创建容灾计划,加入了容...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

如何管理故障

故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...

故障应急协同

故障应急协同群 故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...

CLB实例诊断

监听限速检查:检查监听是否发生带宽限速。失败连接数检查:检查实例当前监听失败连接数是否过高。监听状态检查:检查实例的监听是否为停止状态。常见问题 实例诊断是否支持诊断实例历史时间的状态?不支持。实例诊断只支持实例状态的实时...

CreateSmartAccessGateway-智能接入网关实例

当主设备发生故障时,需手动切换至备设备。warm_backup:购买两台智能接入网关设备共享带宽,两台设备同时在线。当主设备故障时自动切换到备设备。说明 在您创建智能接入网关 vCPE 实例时,本参数仅取值 warm_backup。no_backup ChargeType...

NAT带宽包计费说明

带宽费:费用=带宽单价×计费带宽×带宽包保有时长 计费带宽:当一个计费周期(一天)内,若一个NAT带宽发生带宽变大或变小的变更,计费带宽均取该计费周期内设置过的带宽值的最大值。警告 修改带宽会直接影响当日结算的带宽值,进而...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

混合云解决方案

如果MASTER 宕机,发生故障转移,此时SLAVE如果要提供服务,日志读取器会等待镜像日志先同步,再做发布,但如果MASTER发生硬件故障,此时SLAVE需要打开一个跟踪标记1448,在镜像故障的情况下可以继续分发数据。说明 1448标记用于在事务...

欠费说明

加入按量计费 共享带宽 当 EIP 实例和 共享带宽 实例发生欠费(存在已出账单无法进行扣款)时,资源所属账号会收到短信和邮件提醒。欠费后如果在延停权益额度内,EIP 实例和 共享带宽 仍可正常提供服务。说明 阿里云提供延期免停权益,即当...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

通过告警触发ECS带宽临时升级

通过告警事件值守带宽的状态,并在特定条件下对带宽进行临时升级。背景 当包年包月ECS实例网络带宽不够用时,我们可通过修改实例的带宽配置提高网络性能。但可能每次需要升级的时间点和条件都不同,如果专人根据需求节点去手动修改实例临时...

WAN+4G链路备份

当主用链路发生故障时,自动切换至备用链路。您可以在智能接入网关管理控制台查看当前智能接入网关设备接入Internet的链路状态。前提条件 您已经从运营商处购买了一个可传输数据流量的4G卡并插入到了智能接入网关设备上。背景信息 智能接入...

计费方式

SCDN超出带宽:如果实际发生带宽峰值超出保底带宽,超出带宽会产生额外费用,实际收费带宽=实际日峰值-保底值,按天后付费,且仅支持日峰值计费方式。突发带宽说明 因为业务增长、资源被盗刷或被攻击等原因,可能会产生突发带宽,符合...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

专线连接类

如果不通,则需您向运营商报告故障,同时,您可以 提交工单 向阿里云报告故障,阿里云会检查专线接入情况。阿里云与用户的分工界面在阿里侧交换机的端口,接入设备正常,但端口不通则属于运营商线路中断,需要您向运营商报告故障带宽不...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

云盘异步复制概述

启动云盘异步复制功能 通过异步复制功能实现容灾恢复 您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制提供的故障切换以及反向复制功能对主盘进行容灾恢复。通过异步复制功能实现容灾恢复 删除云盘异步复制关系 创建...

功能特性

专线+Internet备份:智能接入网关支持Internet链路和专线互为备份链路,当主用链路发生故障时,自动切换至备用链路接入阿里云。说明 目前仅 SAG-1000支持专线功能,SAG-100WM不支持专线功能。更多信息,请参见 什么是高速通道。路由方式 ...

设计方案

从提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障发生时及时应对,故障恢复后回归验证。基于故障本身打造分布式系统韧性,持续提升软件质量,增强团队对软件生产运行的...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

报警设置

订阅事件通知:当 Tair 实例产生了主动运维事件(如实例迁移)、实例发生故障或触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。常见问题 ...

报警设置

订阅事件通知:当 Redis 实例产生了主动运维事件(如实例迁移)、实例发生故障或触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。常见问题 ...

步骤五:应用容灾

确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 页面,选择 恢复网络、...

RDS SQL Server异地容灾

RDS SQL Server提供了异地容灾方案,可以将源实例的业务数据自动同步至容灾实例中,当源实例所在地域的RDS实例发生故障时,可手动切换系统到容灾地域的RDS实例上,从而保障业务的连续性和可用性。前提条件 已在地域A和地域B分别创建了RDS ...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 面板,选择 恢复...

本地盘最佳实践

如果本地盘发生故障、物理服务器发生宕机,或者人为误操作,本地盘会丢失数据。请勿在本地盘上存储需要长期保存的业务数据。但云盘采用分布式三副本机制,能防止意外硬件故障导致的数据不可用。如果应用没有多节点数据冗余架构,强烈建议您...
共有195条 < 1 2 3 4 ... 195 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享带宽 NAT网关 全球加速 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用