围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

云盘三副本技术

数据保护机制 当有数据节点损坏,或者某个数据节点上的部分硬盘发生故障时,集群中部分Chunk的有效副本数就会小于三。此时,Master就会发起自动同步任务,在Chunk Server之间复制数据,使集群中所有Chunk的有效副本数达到三份。重要 如果...

ModifyScalingGroup-修改一个伸缩组

虚拟交换机的优先级按照数字升序排序,1 表示最高优先级。当优先级较高的虚拟交换机所在可用区无法创建 ECS 实例时,自动选择下一优先级的虚拟交换机创建 ECS 实例。string 否 一台或多台虚拟交换机的 ID。只有当伸缩组网络类型为 VPC 时,...

ECS系统事件概述

说明 非预期运维事件一般指的是因底层宿主机发生了无法预测的故障,或者ECS实例的操作系统发生了内核错误等问题,导致ECS实例突然出现宕机或重启。因宿主机故障导致ECS实例宕机或重启事件(SystemFailure.Reboot)属于偶发现象,无法避免。...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

配置设备级高可用

当主网关设备发生故障时,HA机制能够从备份的网关设备中选举一台设备成为新的主网关设备,用来承担数据流量,从而保障网络的可靠通信。动态HA功能无需配置虚IP地址,系统会主动帮您探测设备状态,在主网关设备故障时,自动帮您切换流量。...

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 ...

地域和可用区

如果其中一个可用区的实例发生故障,可以让另一个可用区的实例来处理相关请求。如果您的应用要求实例之间的网络延时较低,建议您将实例创建在同一可用区内。将ECS实例迁移到其他可用区 您可以将实例从一个可用区迁移到另一个可用区。主要...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 云...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

创建DDH

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

查看节点健康状态

节点健康状态展示了当前节点的运行状态是否正常,它是由多个健康检查项结果汇总而成的。本文将介绍如何查看节点的健康状态和相关的健康检查项。...host_fault_compensation_check 检测是否发生故障补偿。无阈值,有故障补偿发生即为异常。

故障管理

阿里集团相关团队在多年的故障管理经验上,开发了一套功能非常丰富,方便故障管理的各项工作数字化推动的故障管理平台。故障管理的方方面面都可以在运维事件中心上配置和管理。故障等级定义的制定和录入 标准化故障等级定义制定的思路:...

创建专有宿主机

关闭宿主机故障时自动迁移服务:DDH发生故障停机后,您需要 提交工单 申请置换一台健康的DDH。默认值:开启宿主机故障时自动迁移服务。您也可以在创建DDH后修改该配置,具体操作,请参见 设置宕机自动迁移。重要 本地SSD型DDH不支持宿主机...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 面板,选择 恢复...

步骤五:应用容灾

确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 页面,选择 恢复网络、...

名词解释

例如,某项任务完成的信息,或者设备发生故障或告警时的温度等,事件可以被订阅和推送。设备影子 是一个JSON文档,用于存储设备或者应用的当前状态信息。每个设备都会在云端有唯一的设备影子。无论该设备是否连接到Internet,您都可以使用...

设置扩缩容策略和多实例规格降低成本

在创建伸缩组时配置多个可用区的扩缩容策略,确保某个可用区资源紧张或发生故障时,伸缩组可以在其他可用区进行资源调度,保证业务的高可用性。同时,在创建伸缩配置时也支持设置多个实例规格,可避免因单个实例规格库存不足而导致伸缩活动...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:登录 混合云容灾管理控制台。单击 切换到连续复制型容灾。在 概览 页面,单击目标容灾站点对。在容灾中心页面,单击 受...

企业单AZ架构升级到多AZ

多可用区部署的常见应用:关键业务系统:对于需要高可用性和连续性的关键业务系统,如金融服务、医疗保健和电子商务平台,多AZ部署可以确保系统即使在一个数据中心发生故障的情况下也能继续运行。容灾要求高的场景:当组织需要符合特定的...

集群高可用架构推荐配置

多可用区的地域:所有托管组件均严格采用多副本、多AZ均衡打散部署策略,确保在单个可用区或节点发生故障时,集群仍然能够正常提供服务。单可用区地域:所有托管组件均严格采用多副本、多节点打散部署策略,确保在单个节点发生故障时,集群...

步骤一:搭建云上专有网络

主数据中心发生重大故障时,所有的服务器可以在VPC内运行,让业务得以继续运行。考虑三个因素 搭建VPC时,您需要考虑选取哪一个阿里云地域作为容灾中心,数据中心与阿里云VPC之间使用哪一种网络连接,以及VPC使用哪个网段。如上图所示,...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

迁移可用区

迁移完成后系统会按您指定的切换时间(立即切换 或 在可维护时间段内进行切换)进行实例切换(同时若您选择的交换发生了变更,实例将切换到新链路),请确保应用具有自动重连机制。若应用没有自动重连机制,需手动重连。由于客户端DNS...

数字人流媒体服务AndroidSDK

数字人开放平台推出的适用于Android数字人流媒体服务SDK。当您调用服务端OpenAPI StartInstance 接口获取RTC和IM参数信息后,可以在Android搭建App,实现数字人拉流和双工对话。AliyunAvatarSDK通过 阿里云音视频通信服务(阿里云RTC)提供...

操作流程

本文介绍使用云盘异步复制容灾的基本操作流程。操作流程 在云备份服务控制台,实现对关键应用的容灾保护,主要步骤包括如下:步骤一:资源规划。...该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。

操作流程

本文介绍使用云盘异步复制容灾的基本操作流程。操作流程 在混合云容灾服务控制台,实现对关键应用的容灾保护,主要步骤包括如下:步骤一:资源规划。...该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。

EDAS直播公告

安利的企业微服务架构转型之路 云途时代数字化转型实践 EDAS 3.0核心功能演示 2020-05-15 微服务治理实践之金丝雀发布 应用的有些故障是因为发布直接或间接引起的,因此提升发布的质量,减少错误的发生,是有效减少线上故障的一个关键环节...

管理实例专有网络VPC

如果您购买的是公网网络类型的实例,实例仅提供一个公网域名,只能通过公网域名进行访问。为了提升网络的稳定性,您可以将实例设置为可以通过专有网络VPC访问的实例...变更完成后,在实例 基础信息 页面可查看专有网络和交换机是否发生变更。

故障演练

但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有太多的机会验证,往往都是在真实故障中暴露。故障演练就是这个背景下诞生的,沉淀通用的故障场景,...

创建Kubernetes托管版集群

勾选 故障时重启节点 后,节点NotReady时,系统会尝试自动重启相关组件来修复故障节点,并在重启前执行排水。自动升级规则 选中 托管节点池 后,可设置此配置项。勾选 自动升级 kubelet 后,系统会在有可用的kubelet版本时自动升级到该版本...

使用5G高速上云服务

绑定与解绑交换机 当您的业务发生变化,需要绑定或解绑交换机时,您可以执行以下操作。登录 5G高速上云服务管理控制台。在 实例列表 页面,找到目标实例,单击实例ID。在 实例信息 页签下的 基本信息 区域,在 云连接器信息 右侧单击 绑定 ...

混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 负载均衡 云解析DNS 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用