故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

高性能版实例

即使计算节点发生故障,也可以保证实例无数据丢失。高可用 AnalyticDB PostgreSQL版 高性能版由于减少了一个副本,在高可用方面出现了一些下降,在物理机故障等极端情况下,集群恢复的时间会变长(8小时以内)。高性能版通过ESSD多副本技术...

标准架构

主节点提供日常服务访问,从节点提供HA高可用,当主节点发生故障,系统会自动在30秒内切换至从节点,保证业务平稳运行。标准架构高可类型的特点如下:可靠性 服务可靠 采用双机主从(master-replica)架构,主从节点位于不同物理机。主...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:登录 混合云容灾管理控制台。单击 切换到连续复制型容灾。在 概览 页面,单击目标容灾站点对。在容灾中心页面,单击 受...

无法连接Windows实例

步骤二:检查客户端本地网络是否异常 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不存在,则执行下一步步骤。故障现象 用户本地无法连接外网。故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 ...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

DescribeDBClusters-查询集群列表

删除错误码:400 删除错误码:500 删除错误码:503 2023-07-07 OpenAPI 错误码发生变更、OpenAPI 返回结构发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:400 删除错误码:500 删除错误码:503 出参 Open...

MSE注册配置中心高可用最佳实践

无容灾保护 当来自Consumer端的请求量突然增加时,如果Provider容量水位较高,会导致个别Provider发生故障:注册中心会将故障节点摘除,全量流量会给剩余节点。剩余Provider节点负载变高,大概率也会发生故障。最终所有Provider节点故障,...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

SA混合云存储阵列

当控制器故障时,支持在线故障切换,业务连续性不受影响。阿里云混合云存储阵列将云存储的高性价比和可扩展性与本地数据中心架构相结合,帮助客户轻松实现数据在本地数据中心和公共云之间的无缝流动。产品规格 阿里云 SA混合云存储阵列 ...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

云盘三副本技术

数据保护机制 当有数据节点损坏,或者某个数据节点上的部分硬盘发生故障时,集群中部分Chunk的有效副本数就会小于三。此时,Master就会发起自动同步任务,在Chunk Server之间复制数据,使集群中所有Chunk的有效副本数达到三份。重要 如果...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

变更管理简介

有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案,提高变更成功率与可靠性。变更有记录,所有变更可回溯。核心功能 针对变更操作的审批管控以及所有变更记录 基础配置:支持自定义配置变更系统、变更类型...

修改DNS服务器

重要 阿里云注册域名不支持同时配置多家厂商DNS服务器,因为NS记录缓存时间一般为48小时,部分场景下的故障发生时,NS缓存短时间无法消除,依然会有解析请求到故障DNS。同时不同厂商之间的解析数据不一致问题也容易引发故障。阿里云注册...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

压测报告中的位值是什么含义?

一般用分位值来观察大部分用户数据,平均值会“削峰填谷”削减毛刺,同时高分位的稳定性可以忽略掉少量的长尾数据。高分位数据不适用于全部的业务场景,例如金融支付行业,可能就会要求100%成功。位值是如何计算的?以95位值为例:将...

压测报告中的位值是什么含义?

一般用分位值来观察大部分用户数据,平均值会“削峰填谷”削减毛刺,同时高分位的稳定性可以忽略掉少量的长尾数据。高分位数据不适用于全部的业务场景,例如金融支付行业,可能就会要求100%成功。位值是如何计算的?以95位值为例:将...

查看并管理计划内事件

实例为单可用区:进行一次切换,实例或实例中涉及切换的片将发生连接闪断及30秒以内的只读状态(用于等待数据完全同步)。实例为多可区:进行两次切换。切换时,实例或实例中涉及切换的片将发生连接闪断及30秒以内的只读状态(用于...

查看并管理计划内事件

实例为单可用区:进行一次切换,实例或实例中涉及切换的片将发生连接闪断及30秒以内的只读状态(用于等待数据完全同步)。实例为多可区:进行两次切换。切换时,实例或实例中涉及切换的片将发生连接闪断及30秒以内的只读状态(用于...

混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...

产品架构介绍

多活流量必须经过接入层,以便在故障发生时,通过接入层切换入口流量。比例分流:接入层支持按比例将流量分流到机房。特殊场景下,可以将机房流量切零,从而实现故障情况下的流量切换。精准路由:接入层支持根据HTTP请求Header/Cookie/...

信号发生器

本文为您介绍信号发生器组件。功能说明 信号发生器组件用于按照信号类型生成指定类型的信号值,信号类型支持6种,包括阶跃、正弦、脉冲、斜线、三角、白噪声。计算逻辑原理 以下表达式涉及的参数定义:① t 表示运行时长。② t 0 表示阶跃...

查询并配置计划内事件

为保证能够及时接收风险通知信息,请登录 消息中心,并完成以下操作:勾选 故障消息 中的 云数据库故障或运维通知 和 应急风险预警通知。设置消息接收人(推荐设置为数据库运维人员)。操作步骤 登录 Lindorm管理控制台。在左侧导航栏中,...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

混合云解决方案

如果MASTER 宕机,发生故障转移,此时SLAVE如果要提供服务,日志读取会等待镜像日志先同步,再做发布,但如果MASTER发生硬件故障,此时SLAVE需要打开一个跟踪标记1448,在镜像故障的情况下可以继续分发数据。说明 1448标记用于在事务...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

主从实例读写分离部署(共享存储)

该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。Hologres从V1.1版本开始,采用全新恢复机制,节点恢复速度在一分钟左右,比...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

EasyCkpt:AI大模型高性能状态保存恢复

因此,在发生故障时,迫切需要一种以低成本的方法来保存最新的Checkpoint。这样在重新启动训练时就无需重复计算,从而减少时间和成本的浪费。功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的...

网络架构容灾

当地址池中地址发生故障时,HealthCheck模块会准确的检测到异常情况并与DNS交互(如下图中序号3所示),摘除故障地址(如下图中序号4所示),这样用户端会自动解析到可用的地址池(如下图中序号5所示)。并当故障地址恢复时,自动恢复至...

发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

发现并处理Redis的大Key和热Key

在使用Redis的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能引发的问题及如何快速...

Postgres CDC(公测中)

即使发生故障,也能采用Exactly Once方式处理。本文为您介绍如何使用Postgres CDC连接。背景信息 Postgres CDC连接支持的信息如下。类别 详情 支持类型 源表 说明 您可以使用 JDBC 作为结果表和维表连接。运行模式 仅支持流模式 数据...

源为PolarDB-X的功能规范和约束说明

警告 异常切流是指源实例或者源实例所在的数据中心发生故障时进行的切流操作。这类操作都是有损操作。在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据...

源为PolarDB-X的功能规范和约束说明

警告 异常切流是指源实例或者源实例所在的数据中心发生故障时进行的切流操作。这类操作都是有损操作,例如导致数据不一致或任务失败。在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,...

容灾管理服务介绍

类别 产品 弹性计算 云服务ECS 数据库 云数据库RDS 云数据库RDS MySQL版(高可用版、集群版)云数据库RDS SQL Server版 云数据库RDS PostgreSQL版 云数据库Redis版 云数据库MongoDB版 副本集 片集群 云原生数据库PolarDB分布式版...

步骤1:创建实例

设置项 说明 实例类型 高可用:具有多副本,支持高可用,当主节点发生故障后能够自动切换节点。适用于数据有可靠性要求场景。单副本:仅单副本,适用于测试、开发以及对数据可靠性无要求的场景。版本兼容性 根据需求选择兼容的Redis版本。...

基于Kubernetes容器集群的容灾架构与方案

在进行系统架构设计时,您必须考虑到信息系统和基础设施可能遇到的各种潜在威胁,例如:硬件故障、软件系统崩溃、人为操作失误、安全攻击、自然灾害等。为了确保系统能够在各种异常故障场景下快速恢复并保持业务连续性,您必须为系统设计...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
短信服务 数据库自治服务 云消息队列 RocketMQ 版 负载均衡 弹性公网IP 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用