一致性复制组概述

容灾站点 除了生产站点以外另外建立容灾站点,当生产站点发生故障时,容灾站点可以接管业务,实现业务不间断。恢复点目标(RPO)由于云盘异常可能丢失的数据量,以时间为单位,是异步复制功能的数据指标之一(一致性复制组功能的RPO默认为...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 面板,选择 恢复...

EMR Kafka磁盘故障运维

当磁盘发生故障时,应及时完成相关故障的处理,及时恢复集群的容错能力。磁盘运维概述 本文从磁盘监控和磁盘故障恢复角度来介绍磁盘运维策略。磁盘监控 以下内容从Kafka服务层面以及ECS系统层面来简单了解一下磁盘的监控策略。Kafka服务...

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

数据库代理常见问题

数据库代理采用双主节点的高可用架构,流量连接按照1:1比例分发到两个节点当中,如果其中一个节点发生故障,将由另一个节点承担全部流量,并会自动触发故障节点重搭恢复任务,以确保数据库服务的高可用性。数据库代理的性能会随着代理连接...

组复制简介

数据 强 一致性 在组复制中,事务总是先传输到集群中其他节点,然后写入Binlog文件,这保证无论主节点在什么时刻发生故障,重新启动后数据都不会比集群选出的新主节点多。旧主节点故障重启后,能够自动加回集群,拉取它缺失的Binlog,就...

云监控告警

事件名称 事件所属类型 说明 IP流量告警 数据监控告警 您可以设置数据监控报警通知,及时获知指标数据发生的异常,并在发生故障时及时发现问题,缩短故障处理时间,以便尽快恢复业务。连接数告警 QPS告警 状态码告警 DDoS黑洞事件告警 事件...

容灾管理服务介绍

针对有高可用需求的用户,CADT容灾管理服务提供规划、优化、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行容灾演练,验证系统是否能够抵御资源故障或者AZ故障,保障系统健壮性。主要功能 容灾规划 在用户部署资源前,通过...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:登录 混合云容灾管理控制台。单击 切换到连续复制型容灾。在 概览 页面,单击目标容灾站点对。在容灾中心页面,单击 受...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

创建专有宿主机

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...

集群系列

且单个只读实例没有灾备,因此为了保障业务的可用性和连续性,建议至少创建两个只读实例,以确保某一个只读实例发生故障时,另一个只读实例可以继续提供服务。购买集群系列实例时,建议您选择多可用区部署,以实现跨可用区的容灾能力。架构...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

变更管理简介

有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案,提高变更成功率与可靠性。变更有记录,所有变更可回溯。核心功能 针对变更操作的审批管控以及所有变更记录 基础配置:支持自定义配置变更系统、变更类型...

修改DNS服务器

重要 阿里云注册域名不支持同时配置多家厂商DNS服务器,因为NS记录缓存时间一般为48小时,部分场景下的故障发生时,NS缓存短时间无法消除,依然会有解析请求到故障DNS。同时不同厂商之间的解析数据不一致问题也容易引发故障。阿里云注册...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

应用场景

平时,您还可以方便地进行容灾演练,确保真实故障发生时恢复流程顺畅,保证容灾计划的准确性。混合云容灾服务让您无需承担自建灾备中心的巨大投入,也无需担心传统容灾方案复杂的软硬件部署运维,极大减少了异地容灾的成本,提高容灾的有效...

围绕混沌工程的平台实践

原则5最小化爆炸半径 最小化爆炸半径意味着混沌工程的影响范围必须得到控制,逐渐扩大故障范围,要保证演练是可的,因此在演练当中需要您时刻关注在稳态假设中配置好的系统指标,如果影响范围超出了预期,请立刻终止演练,并且修复问题。...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

使用云监控功能监控网站环境(部署于ECS实例)

同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要完成以下操作:检查ECS监控插件运行情况,确保监控信息能够正常采集。如果安装失败则需要手动安装插件,具体...

EDAS直播公告

安利的企业微服务架构转型之路 云途时代数字化转型实践 EDAS 3.0核心功能演示 2020-05-15 微服务治理实践之金丝雀发布 应用的有些故障是因为发布直接或间接引起的,因此提升发布的质量,减少错误的发生,是有效减少线上故障的一个关键环节...

企业版和标准版功能对比

支持 支持 高可用性 单可用区高可用 多节点的架构可用于保障集群的高可用,当系统发生故障时,可读写的主节点和只读节点之间会自动进行故障切换(Failover)。支持 支持 多可用区高可用 PolarDB MySQL版 支持创建多可用区的集群。相比单...

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

产品优势

服务部署后,计算巢提供阿里云自助服务和全链路检测能力,实现一排查、智能故障检测,提升业务稳定性。计算巢为用户提供了丰富的软件选择,覆盖常见的软件类型,包括:数据库等基础软件,CRM等应用软件,以及制造、医疗等行业软件。已经...

混沌工程缓存实战系列-Redis

因为客户端层面的影响面可,所以可以尝试从客户端层面去制造故障。因为服务端出现故障更加真实,所以可以从服务端层面去制造故障,但对于问题定位和排查的要求会更高。注入故障,观察指标的变化。缓存监控指标 目前支持的可监控的缓存...

ACK发布Kubernetes 1.28版本说明

阿里云 容器服务 Kubernetes ...新增 InPlacePodVerticalScaling Alpha特性门,允许调整Pod的CPU和内存资源时不发生Pod和容器重启。允许扩展卷大小的特性已经GA,有三个相关特性门将移除,并默认启用:ExpandCSIVolumes 启用CSI卷的扩展;...

基于Kubernetes容器集群的容灾架构与方案

在进行系统架构设计时,您必须考虑到信息系统和基础设施可能遇到的各种潜在威胁,例如:硬件故障、软件系统崩溃、人为操作失误、安全攻击、自然灾害等。为了确保系统能够在各种异常故障场景下快速恢复并保持业务连续性,您必须为系统设计...

AIOps 解决方案专家服务内容说明

智能运维又称AIOps,即人工智能与运维结合,可通过机器学习的防范来提升运维效率。它提供:时序指标异常诊断、根因分析、资源编排、故障自愈等能力。常见的AIOps应用路径为:对监控的各种关键性能指标(KPI)行实时异常检测;对多维指标...

分镜与关键帧面板管理

相机:展开 相机 列表,您可以自定义拖动滑块调整 经度、纬度、高度、倾斜、平 和 视角 的参数。时间系统:展开 时间系统 列表,在 时间 参数配置项,您可以自定义为当前场景内的当前帧选择一个具体的所处时间。完成各项关键属性参数配置...

分镜与关键帧面板管理

相机:展开 相机 列表,您可以自定义拖动滑块调整 经度、纬度、高度、倾斜、平 和 视角 的参数。时间系统:展开 时间系统 列表,在 时间 参数配置项,您可以自定义为当前场景内的当前帧选择一个具体的所处时间。完成各项关键属性参数配置...

分镜与关键帧面板管理

相机:展开 相机 列表,您可以自定义拖动滑块调整 经度、纬度、高度、倾斜、平 和 视角 的参数。时间系统:展开 时间系统 列表,在 时间 参数配置项,您可以自定义为当前场景内的当前帧选择一个具体的所处时间。完成各项关键属性参数配置...

分镜与关键帧面板管理

相机:展开 相机 列表,您可以自定义拖动滑块调整 经度、纬度、高度、倾斜、平 和 视角 的参数。时间系统:展开 时间系统 列表,在 时间 参数配置项,您可以自定义为当前场景内的当前帧选择一个具体的所处时间。完成各项关键属性参数配置...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 数字证书管理服务(原SSL证书) 云防火墙 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用