如何管理故障

故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...

故障应急协同

故障应急协同群 故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...

周期任务补数据

指定字段:适用于需要自定义补数据的字段的场景,受到如下约束:有变更字段:对于维度逻辑表和事实逻辑表,系统将自动识别并选中计算逻辑发生变更的字段,不支持取消选中,保障数据按照最新计算逻辑运行。对于汇总逻辑表,系统会根据指标的...

周期任务补数据

指定字段:适用于需要自定义补数据的字段的场景,受到如下约束:有变更字段:对于维度逻辑表和事实逻辑表,系统将自动识别并选中计算逻辑发生变更的字段,不支持取消选中,保障数据按照最新计算逻辑运行。对于汇总逻辑表,系统会根据指标的...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

故障演练

但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有太多的机会验证,往往都是在真实故障中暴露。故障演练就是这个背景下诞生的,沉淀通用的故障场景,...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...

代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

产品架构介绍

多活流量必须经过接入层,以便在故障发生时,通过接入层切换入口流量。比例分流:接入层支持按比例将流量分流到机房。特殊场景下,可以将机房流量切零,从而实现故障情况下的流量切换。精准路由:接入层支持根据HTTP请求Header/Cookie/...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

同城容灾演练产品概述

分布式集群设计、避免单点逻辑出现。幂等。异步化、松耦合、可中断、可重试。面向失败的架构设计。断网演练对业务的影响介绍 演练之前需对自身的部署架构进行充分评估。符合同城容灾架构相关标准只是具有同城容灾能力的基础条件,实际是否...

混沌工程缓存实战系列-Redis

缓存重要性 Redis是一个开源高性能的Key-Value存储系统,因为其高的读写性能,丰富的数据类型,原子性的操作以及其他特性而被广发运用。Redis的应用场景包括且不限于以下场景:用来做分布式缓存。用来做分布式锁。用来处理某些特定高并发...

基本概念

故障演练原子操作 故障演练原子操作指一个最小单元的故障。广播消费 Broadcasting consumption,一个 Group ID 所标识的所有 Consumer 都会各自消费某条消息一次。例如某个 Topic 有 9 条消息,一个 Group ID 有 3 个 Consumer 实例,那么...

立即备份

背景信息 物理备份:物理备份是指转储 OceanBase 的物理文件包含基线数据、日志归档数据等,一旦数据库发生故障,可以利用这些文件进行数据库恢复。逻辑备份:逻辑备份是指数据库对象级备份,支持表、库两种维度的备份。库级备份时,针对...

密钥轮转概述

如果第一次执行(突发性)密钥轮转是在响应具体事件的情形下,并且发生在运行中的系统上,则发生故障的概率会被无限放大。对数据形成逻辑上的隔离 轮转加密密钥使得轮转前后产生的密文数据形成事实上的隔离效果。特定密钥的安全事件可以被...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

多可用区部署

当主实例1发生故障或者可用区A不可用时,用户将访问的连接切换至备实例2或者可用区B,从而实现高可用,主备容灾的高可用架构图如下所示。主备容灾的方案虽然能够满足大部分用户的高可用需求,但是这种主备容灾方案并不适用所有的业务,存在...

TG7121B

TG7121B是天猫精灵面向小家电智能化推出的蓝牙Mesh芯片,具有简的电路设计,优异的射频性能,工业级温宽范围(-40℃~85℃)及易生产的SOP16封装等特点。产品详情 概述 TG7121B是天猫精灵定制的蓝牙5.0芯片,集成E-Fuse、UART、SPI、I2C、...

为RDS创建灾备实例

当RDS实例所在可用地域发生故障时,可基于灾备实例快速恢复服务。应用场景 创建RDS灾备实例可以为主实例提供数据备份和灾难恢复保障,当主实例出现故障或不可用时,灾备实例将自动接管数据服务,保证业务的连续性和可用性。风险等级 默认...

TG7120B

TG7120B是天猫精灵面向小家电智能化推出的蓝牙Mesh芯片,具有简的电路设计,优异的射频性能,工业级温宽范围(-40℃~85℃)及易生产的SOP16封装等特点。产品详情 概述:TG7120B是天猫精灵定制的蓝牙5.0芯片,内置平头哥玄铁CPU,集成E-Fuse...

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

单实例快速恢复

该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。节点恢复速度在一分钟左右,当表数量明显增加时,恢复时间会更长。Hologres...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。背景信息 云盘恢复...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复...

什么是混合云容灾服务

RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云上将应用恢复运行所需要的时间。混合云灾备一体机 阿里云推出的具有容灾备份功能的一体机。混合云容灾定价 HDR支持按量付费和包年包月资源包。关于混合云容灾HDR的计量项...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件 已创建云盘备份。更多信息,请参见 创建云...

名词解释

这种模式下,两个城市的三个数据中心互联互通,如果⼀个数据中心发生故障或灾难,其他数据中心可以正常运行并对关键业务或全部业务实现接管。命名空间 多活命名空间MSHA Namespace,是一个逻辑租户的概念,用于进行租户粒度的管控配置和云...

灾备方案

Tair 容灾架构演进 当 Tair 实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。Tair 提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Tair 容灾架构演进 灾备方案 灾备级别 ...

灾备方案介绍

云数据库Redis容灾架构演进 当云数据库Redis实例因不可预料的原因(例如设备故障、机房断电等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。云数据库Redis提供多种灾备方案供您选择,可满足不同的业务场景。图 1.Redis容灾架构...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

高可用和容灾设计

可通过集群可读地址访问备节点,在发生故障切换时,RDS的高可用系统会自动执行以下三个步骤:将一个备节点提升为主节点,该备节点从集群可读地址中移除,同时清除该备节点上的可读连接,此时集群可读地址会发生闪断。故障主节点从集群读写...

混合云解决方案

如果MASTER 宕机,发生故障转移,此时SLAVE如果要提供服务,日志读取器会等待镜像日志先同步,再做发布,但如果MASTER发生硬件故障,此时SLAVE需要打开一个跟踪标记1448,在镜像故障的情况下可以继续分发数据。说明 1448标记用于在事务...

数据模型架构规范

模型设计的基本原则 高内聚和低耦合 一个逻辑和物理模型由哪些记录和字段组成,应该遵循最基本的软件设计方法论中的高内聚和低耦合原则。主要从数据业务特性和访问特性两个角度来考虑:将业务相近或者相关的数据、粒度相同数据设计为一个...

自研内核

支持 逻辑复制槽故障转移(Logical Replication Slot Failover),在使用逻辑复制功能时,主备切换不影响逻辑复制可靠性。支持 透明数据加密,对数据文件进行实时加密和解密,保护用户数据隐私。支持 SSL链路加密,对网络连接进行加密,保证...

标准架构

主节点提供日常服务访问,从节点提供HA高可用,当主节点发生故障,系统会自动在30秒内切换至从节点,保证业务平稳运行。标准架构高可用类型的特点如下:可靠性 服务可靠 采用双机主从(master-replica)架构,主从节点位于不同物理机。主...

快速入门-ECS容灾

而当您的主站发生重大故障,需要在云上马上重启核心业务时,则需要进行故障切换操作。方向复制 被保护服务器的应用完成从某个地域(如地域A)容灾复制到另一个地域(如地域B)后,还可以实施反向复制,即从地域B反向复制到地域A。

什么是读写分离

提升数据库系统的可用性 读写分离模块自动对集群内的所有节点进行健康检查,当发现某个节点宕机或者延迟超过阈值后,PolarDB 将不再分配读请求给该节点,读写请求在剩余的健康节点间进行分配,以此确保单个只读节点发生故障时,不会影响...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 消息服务 云消息队列 RocketMQ 版 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用