设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

通过CADT实现NLB可用区级容灾演练

云速搭CADT(Cloud Architect Design Tools)容灾管理服务提供规划、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行容灾演练,验证系统是否能够抵御资源故障或者可用区故障,保障系统健壮性。本文为您介绍如何通过CADT实现...

演练场景说明

故障演练场景是演练任务的核心。AHAS提供基础资源类场景和Kubernetes类场景,帮助分布式系统提升容错性和可恢复性。每一个执行阶段的演练场景都对应一个恢复阶段的演练任务。恢复阶段的演练任务目的是清除故障演练的影响,使应用或服务恢复...

什么是云监控

云监控(CloudMonitor)是一项针对阿里云资源和互联网应用进行监控的...资源消耗 为您提供查看资源消耗详情的功能,您也可以购买短信资源包或电话报警资源包。容器监控 为您提供跨地域、集中化和全局化监控容器服务Kubernetes版集群的功能。

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

托管节点池节点自动恢复

当节点的运行状态发生变化并持续一段时间后,ACK将判定该状态符合故障状态,存在节点故障。当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后...

故障排查

本文介绍您在使用 ACK Serverless集群 时可能遇到的故障以及解决方案。如果您在使用 ACK Serverless集群 时出现故障,可根据以下故障分类匹配故障场景和解决方案,帮助您快速排查问题,提升运维效率。分类 相关文档 集群资源和集群组件异常...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

演练原子操作

故障演练原子操作指最小单元的故障。在 故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

通过一致性复制组实现容灾恢复

当您创建并启动一致性复制组后,如果生产站点中的云盘发生严重故障,您可以通过一致性复制组批量对生产站点的云盘数据进行容灾恢复。本文主要介绍如何通过一致性复制组进行容灾恢复。背景信息 一致性复制组支持故障切换和反向复制功能,当...

故障动态

PROBLEM_IN_REVIEW 完结 PROBLEM_REOPENED 取消 PROBLEM_CANCEL 更新故障通告 PROBLEM_UPDATE_NOTIFY 添加故障小计 PROBLEM_ADD_SUBTOTAL 更新故障 PROBLEM_UPDATE problemId Long 12312 故障Id problemName String 这是一个故障 故障名称 ...

安装故障演练探针

对指定机器进行演练时,需要在机器上面安装故障演练探针,探针的作用是下发故障演练执行命令。背景信息 一次完整的故障演练包括以下四个阶段:安装探针>创建演练>执行演练>停止演练 操作步骤 登录 AHAS控制台。在左侧导航栏选择 探针管理,...

SSL-VPN连接常见问题

客户端之前连接成功,但间歇性中断下线怎么办?仅部分客户端连接成功怎么办?SSL-VPN连接连通性问题 客户端连接成功,但无法ping通怎么办?客户端连接成功,但仅能单方向ping通怎么办?客户端连接成功,可ping通但域名访问不通或应用业务...

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

安装探针概述

为您的主机等资源安装应用高可用探针后,即可使用AHAS架构感知和故障演练功能,能直观地看到应用对基础架构的依赖关系、组件间的依赖关系,以及对指定机器进行故障演练。接入 AHAS架构感知和故障演练可以接入云服务器ECS、自建Kubernetes、...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 云...

DescribeFailoverTestJob-查询高速通道故障演练任务...

调用DescribeFailoverTestJob接口查询高速通道故障演练任务详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

DescribeFailoverTestJob-查询高速通道故障演练任务...

调用DescribeFailoverTestJob接口查询高速通道故障演练任务详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。...

常见问题FAQ

如无法排除故障:售后服务热线 400-0099998转1号键,进入报单,报单时请提供:门店名称、门店编号、门店具体地址、门店联系人姓名、手机号、故障现象。5.右上角无网络 故障示意图如下:如门店单台设备显示无网络,见下遥控器按键说明,按...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

UpdateFailoverTestJob-更新高速通道故障演练任务

调用UpdateFailoverTestJob接口更新高速通道故障演练任务。接口说明 只支持更新处于 待演练状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码...

业务连续性

数据的备份和恢复 故障时流量转移可以很好地避免地域级别故障造成业务中断,但此时故障地域的数据服务也可能同样不可用。为了让业务在备地域的应用启用期间也能正常运转,您需要根据自身的业务设计合适的方案,在非故障期间将数据从主地域...

更新故障详情

更新故障详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/...

UpdateFailoverTestJob-更新高速通道故障演练任务

调用UpdateFailoverTestJob接口更新高速通道故障演练任务。接口说明 只支持更新处于 待演练状态的故障演练任务。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 ...

服务管控和治理

服务治理 服务治理包含服务限流、服务路由、服务鉴权、服务熔断、故障注入、故障隔离、透明劫持、服务拓扑和实时监控相关服务治理。服务限流 在高并发场景下,为保证在现有资源条件下服务正常运行,您可以使用服务限流让请求和并发在应用可...

诊断规则

通过故障诊断平台,运维人员可以将诊断过程、排查顺序进行图形化编排与设计,即故障诊断决策树。而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现...

管理MySQL集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

如何配置流转规则

选择 触发故障 需要配置故障影响服务、故障等级覆盖。配置完成之后点击 提交即可。仅触发报警:确定 报警触发规则:设置触发的持续时长和次数对报警进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发报警,只要将时长和次数分别设置...

CreateFailoverTestJob-创建高速通道故障演练任务

调用CreateFailoverTestJob接口创建高速通道故障演练任务。接口说明 以下场景不支持创建故障演练任务:当前地域您已经有正在演练的故障演练任务,且本次创建故障演练任务的任务类型为立即开始。物理专线实例或者共享物理专线实例没有支付...

CreateFailoverTestJob-创建高速通道故障演练任务

调用CreateFailoverTestJob接口创建高速通道故障演练任务。接口说明 以下场景不支持创建故障演练任务:当前地域您已经有正在演练的故障演练任务,且本次创建故障演练任务的任务类型为立即开始。物理专线实例或者共享物理专线实例没有支付...

获取故障通知预览

UPDATE:故障更新 PROBLEM_UPGRADE:故障升级 PROBLEM_DEGRADE:故障降级 PROBLEM_RECOVER:故障恢复 PROBLEM_REISSUE:故障补发 PROBLEM_CANCEL:故障取消 problemLevel String Body 否 P2 故障等级 effectServiceIds Array of Long Body ...

强弱依赖治理概述

强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。什么是强弱依赖?异常发生时,不影响核心业务流程,不...

逻辑复制槽故障转移(Logical Replication Slot ...

RDS PostgreSQL逻辑复制槽故障转移(Logical Replication Slot Failover)功能可以将所有的逻辑复制槽从主实例同步到备实例,从而实现逻辑复制槽的故障转移。前提条件 PostgreSQL 10或以上版本均支持此功能,如提示不支持,请升级内核小...

故障复盘改进详情

故障复盘改进详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...
共有100条 < 1 2 3 4 ... 100 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
应用高可用服务 数据库自治服务 负载均衡 云数据库 OceanBase 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用