故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

故障应急协同

故障应急协同群 故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的 服务;影响服务:选择 影响服务(可多选);进展摘要:处理人将事件升级为...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

创建DDH

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...

什么是物模型

设备发生故障时的温度、时间信息;设备告警时的运行状态等。事件可以被订阅和推送。物联网平台支持为产品定义多组功能(属性、服务和事件)。一组功能定义的集合,就是一个物模型模块。多个物模型模块,彼此互不影响。物模型模块功能,解决...

创建专有宿主机

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...

DATASOURCE:ECS:DedicatedHosts

无 ActionOnMaintenance String 当专有宿主机发生故障或者在线修复时,为其所宿实例设置迁移方案。取值:Migrate:迁移实例到其他物理机并重新启动实例。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿主机后,迁移实例到其他物理...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

如何管理故障

故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...

数据库代理常见问题

数据库代理采用双主节点的高可用架构,流量连接按照1:1比例分发到两个节点当中,如果其中一个节点发生故障,将由另一个节点承担全部流量,并会自动触发故障节点重搭恢复任务,以确保数据库服务的高可用性。代理个数和代理规格是什么关系?...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:登录 混合云容灾管理控制台。单击 切换到连续复制型容灾。在 概览 页面,单击目标容灾站点对。在容灾中心页面,单击 受...

DescribeDedicatedHosts-查询专有宿主机详细信息

1 ActionOnMaintenance string 当专有宿主机发生故障时,为其所宿实例设置迁移方案。取值范围:Migrate:专有宿主机整机迁移至另一物理服务器,并对故障前非关机状态的实例进行启动。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿...

DescribeDedicatedHosts-查询专有宿主机详细信息

1 ActionOnMaintenance string 当专有宿主机发生故障时,为其所宿实例设置迁移方案。取值范围:Migrate:专有宿主机整机迁移至另一物理服务器,并对故障前非关机状态的实例进行启动。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

约束与限制

故障切换:实例协调节点和计算节点均采用主备HA架构,当主节点发生异常或者硬件故障时,会在30秒内切换到备节点。切换过程中有30秒左右的连接闪断,需要您提前做好准备,通过连接池等机制,设置好程序的自动重连。指标 限制 用户最大连接数...

故障演练

但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有太多的机会验证,往往都是在真实故障中暴露。故障演练就是这个背景下诞生的,沉淀通用的故障场景,...

FailoverDiskReplicaPair-启用云盘异步复制故障切换

启用异步复制关系的故障切换功能。接口说明 异步复制功能支持的地域请参见 云盘异步复制概述。异步复制关系不能处于 失效(invalid)或 已删除(deleted)状态。故障切换完成后,异步复制关系处于 故障切换完成(failovered)状态。调试 您...

上下文查询

通过查看指定日志的上下文信息,您可以在业务故障排查中快速查找相关故障信息,方便定位问题。应用场景 例如,O2O外卖网站在服务器上的程序日志里会记录一次订单成交的轨迹:用户登录>浏览商品>选择物品>加入购物车>下单>订单支付>支付扣款...

FailoverDiskReplicaGroup-启用异步复制组故障切换

启用一致性复制组中复制对的故障切换功能。当一致性复制组中某些复制对的主盘出现故障时,可以调用该接口恢复从盘的读写权限。接口说明 一致性复制组功能支持的地域请参见 云盘异步复制概述。一致性复制组必须处于 单次同步中(manual_...

CreatePhysicalConnection-申请物理专线接入

BFD:支持转发点之间故障检测的网络协议能力。CEN:支持 MP-BGP 协议能力。CENv6:支持 MP-BGPv6 协议能力。CENv6 返回参数 名称 类型 描述 示例值 object 返回结果。PhysicalConnectionId string 物理专线实例 ID。pc-bp1ciz7ekd2grn1as*...

session分析

属性类型 筛选符号 符号定义 举例 字符串 等于 表示等于一个或多个具体的值 设备品牌等于华为或苹果 不等于 表示排除一个或多个具体的值 设备品牌排除华为或苹果 包含 查找属性值中包含某些字符的值 设备品牌中包含华为这个字符 不包含 ...

CreatePhysicalConnection-申请物理专线接入

BFD:支持转发点之间故障检测的网络协议能力。CEN:支持 MP-BGP 协议能力。CENv6:支持 MP-BGPv6 协议能力。CENv6 返回参数 名称 类型 描述 示例值 object 返回结果。PhysicalConnectionId string 物理专线实例 ID。pc-bp1ciz7ekd2grn1as*...

UpdateRuleAttribute-更新转发规则属性

其他取值,字符集和格式限制如下:主机名长度为 3~128 个字符,支持小写字母 a~z、数字、短划线(-)、半角句号(.)以及通配符星号(*)和半角问号?主机名至少包含一个半角句号(.),且半角句号(.)不能出现在开头或结尾。最右侧的域...

ListRules-查询转发规则

其他取值,字符集和格式限制如下:主机名长度为 3~128 个字符,支持小写字母 a~z、数字、短划线(-)、半角句号(.)以及通配符星号(*)和半角问号?主机名至少包含一个半角句号(.),且半角句号(.)不能出现在开头或结尾。最右侧的域...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 机器翻译 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用