设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

备份和恢复数据

恢复数据 发生系统故障或者操作错误,导致数据丢失时,您可以使用快照来恢复数据,将磁盘数据恢复到快照对应的时间点。以下为您介绍如何通过恢复快照来恢复数据。警告 备份恢复是不可逆操作。执行快照恢复后,磁盘将恢复到快照创建时间点...

基于TairGIS实现电子围栏

背景信息 基于位置的服务LBS(Location Based Services)使用各种类型的定位技术来获取设备当前的所在位置,通过移动互联网向设备提供信息资源和基础服务。近年来,LBS技术已成为诸多行业应用与研究的热点,在很多应用中起到了举足轻重的...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

实例的节点故障处理机制

当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于测试、培训、非核心业务等场景,生产环境建议使用副本集实例或分片集群实例以保障服务的高可用性。副本集 图 1.副本集架构 ...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 ...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 云...

替换主机

背景信息 当主机发生故障时,系统会通过短信通知您某台主机有故障待修复,同时对应的主机状态会显示为 待替换。您可以在 计划内事件 中查看本次故障信息。影响 执行替换主机操作会有如下影响:系统会将主机设置为停止分配实例。迁移走本...

替换主机

背景信息 当主机发生故障时,系统会通过短信通知您某台主机有故障待修复,同时对应的主机状态会显示为 待替换。您可以在 计划内事件 中查看本次故障信息。影响 系统会将主机设置为停止分配实例。迁移走本主机上所有实例。系统会保证把实例...

什么是混合云容灾服务

RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云上将应用恢复运行所需要的时间。混合云灾备一体机 阿里云推出的具有容灾备份功能的一体机。混合云容灾定价 HDR支持按量付费和包年包月资源包。关于混合云容灾HDR的计量项...

灾备规划

GB/T 20988-2007标准是中国国家标准化管理委员会制定的信息系统灾难恢复规范。附录中有某行业RPO/RTO的等级规范示例,如下所示。更多信息,请参见 GB/T 20988-2007标准。混合云容灾服务提供了简单的配置来满足不同的RPO和RTO要求。例如,...

故障应急协同

故障应急协同群 故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...

捷顺

DAS服务自动SQL限流和自动SQL调优,帮助DBA从救火员转向数据库架构师,有更多时间和精力帮助研发优化系统架构,审核数据库的变更和各种操作,进一步降低系统故障的概率。DAS服务自动对数据库实例进行治理,帮助捷顺科技把数据库的运维成本...

设计方案

告警关联分析:在故障发生时,系统会自动产生告警信息。为了更好地定位故障原因,需要对各种告警信息进行关联分析。这样可以快速确定故障的范围和影响,并且能够帮助排查故障的根本原因。告警关联分析可以使用各种工具和算法,如事件关联...

高压缩引擎(X-Engine)介绍

高压缩引擎(X-Engine)多节点架构可用于保障集群的高可用,当系统发生故障时,可读写的主节点和只读节点之间会自动进行故障切换(Failover),保证了服务可用性不低于99.99%。高压缩引擎(X-Engine)多节点架构图如下:产品优势 超大存储...

服务发布策略

当新版本v2存在问题或者发生故障时,可以快速切回旧版本v1。蓝绿部署的优点:部署结构简单,运维方便。服务升级过程操作简单,周期短。蓝绿部署的缺点:资源冗余,需要部署两套生产环境。新版本故障影响范围大。A/B测试 A/B测试基于用户...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

Tair选型指南

选择容灾方案 图 3.Tair容灾架构演进 灾备方案 灾备级别 说明 单可用区高可用方案★主从节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统自动执行故障切换,避免单点故障引起的服务中断。...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

Pod诊断

容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查、...

通过CADT实现NLB可用区级容灾演练

云速搭CADT(Cloud Architect Design Tools)容灾管理服务提供规划、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行容灾演练,验证系统是否能够抵御资源故障或者可用区故障,保障系统健壮性。本文为您介绍如何通过CADT实现...

Multi-Master基础架构

FTS 容错服务(Fault-Tolerance Service),用于检测Segment节点及辅助协调节点的健康状态,并在Segment节点发生故障时进行Segment节点的Primary与Mirror角色的切换。Catalog 以系统表Catalog等信息为代表的全局元信息存储。Main Master ...

功能概览

跨地域容灾 容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

云数据库Redis版产品选型必读

选择容灾方案 图 3.Redis容灾架构演进 灾备方案 灾备级别 说明 单可用区高可用方案★主从节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统自动执行故障切换,避免单点故障引起的服务中断。...

通过CADT实现ALB可用区级容灾演练

云速搭CADT(Cloud Architect Design Tools)容灾管理服务提供规划、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行容灾演练,验证系统是否能够抵御资源故障或者可用区故障,保障系统健壮性。本文为您介绍如何通过CADT实现...

诊断项与诊断结果说明

实例管控系统异常 ECS实例后台管控系统发生异常。检查该实例的后台管控系统是否正常工作。如果后台管控系统未正常工作,可能会导致实例运行异常。您可以尝试通过重启实例进行恢复。实例性能短暂受损 检查实例是否受到底层软硬件问题的影响...

功能特性

专线+Internet备份:智能接入网关支持Internet链路和专线互为备份链路,当主用链路发生故障时,自动切换至备用链路接入阿里云。说明 目前仅 SAG-1000支持专线功能,SAG-100WM不支持专线功能。更多信息,请参见 什么是高速通道。路由方式 ...

解决方案与客户案例

异地多活场景下的数据库方案 方案背景 随着云计算的蓬勃发展,越来越多信息系统选择部署在云计算环境下,因此基于云产品为信息系统的服务能力和数据质量提供保障尤为重要。为了防止灾难性的故障如火灾、洪水、地震、区域电力中断或者人为...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生的故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

AI助手使用说明

发生故障或异常时,通过AI助手底层的告警系统可以自动和PAI进行交互,上报故障信息,并根据故障触发阶段和并行策略选择规避故障方法,对故障机自动进行隔离,并从Checkpoint快速恢复任务。AI助手提供的具体功能如下:异常采集和上报:...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

解决方案与客户案例

异地多活数据库解决方案 方案背景 随着云计算的蓬勃发展,越来越多的信息系统选择部署在云计算环境下,因此基于云产品为信息系统的服务能力和数据质量提供保障尤为重要。为了防止灾难性的故障如火灾、洪水、地震、区域电力中断或者人为破坏...

步骤五:应用容灾

确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 页面,选择 恢复网络、...

云盘异步复制概述

云盘异步复制是一种基于块存储数据复制能力实现跨地域或者同地域跨可用区数据保护的功能。该功能可以将某一块云盘的数据,异步复制到其他地域或者同地域其他可用区内的另一块云盘中,实现存储数据的容灾备份。您可以通过该功能建立关键业务...

一致性复制组概述

容灾站点 除了生产站点以外另外建立容灾站点,当生产站点发生故障时,容灾站点可以接管业务,实现业务不间断。恢复点目标(RPO)由于云盘异常可能丢失的数据量,以时间为单位,是异步复制功能的数据指标之一(一致性复制组功能的RPO默认为...

流量回放和压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

智能压测

此外,在数据库发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。前提条件 源数据库支持:RDS MySQL PolarDB MySQL版 说明 不支持 PolarDB MySQL版 的 企业版 单节点 实例。PolarDB-X 2.0。目标数据库实例...

功能发布记录

2023年06月 功能名称 变更类型 功能描述 相关文档 双隧道模式的IPsec-VPN连接 优化 VPN网关将IPsec-VPN连接升级为双隧道模式,一个IPsec-VPN连接下将包含主备两条隧道,且两条隧道分布在不同的可用区,在主隧道发生故障后,流量可以通过备...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网无线连接服务 商标服务 轻量应用服务器 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用