变更管理简介

有计划、受管控的变更操作降低故障发生率、业务连续性异常。规范变更准备及变更方案,提高变更成功率与可靠性。变更有记录,所有变更可回溯。核心功能 针对变更操作的审批管控以及所有变更记录 基础配置:支持自定义配置变更系统、变更类型...

实例容灾

将实例A作为主实例,实例B作为容灾实例,当实例A所在地域发生突发性故障(例如自然灾害)时,实例B可以作为主实例。通过修改应用程序中的数据库连接配置,将应用请求转到实例B上,实现跨地域的数据容灾。说明 建议您在实例B上部署与实例A上...

创建和管理服务器组

警告 关闭健康检查后,NLB 不再检查后端服务器,一旦某台后端服务器发生故障,则无法实现访问流量自动切换至其它正常的后端服务器。若延长健康检查的间隔时间,后端服务器出现故障时,NLB 发现故障后端服务器的时间也会变长。移除后端...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

故障管理

故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生。最佳实践 运维事件中心是阿里云提供的云上故障管理服务。制定故障应急响应流程机制。可...

GTM如何实现同城容灾

创建1个全局访问策略,解析请求流量 选择 全局,主地址池集合 选择「业务中心01」地址池和「业务中心02」地址池,负载均衡策略 选择 返回全部地址,此设置可实现两个数据中心同时提供服务和发生故障时系统自动摘除故障地址的效果。...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续保障,有效避免了地域...

设计方案

容灾需要具备较为完善的数据保护与灾难恢复功能,保证生产中心不能正常工作时数据的完整性及业务的连续性,并在最短时间内由灾备中心接替,恢复业务系统的正常运行,将损失降到最小。容错 容错是指在分布式系统中,系统出现故障时,通过...

CLB结合全局流量管理实现跨地域负载均衡

在一个地域服务发生故障时,流量可以被转发到另一个地域的正常服务上,从而确保业务的连续性。全局流量管理简介 全局流量管理(Global Traffic Manager),简称GTM,是在 DNS 层面上实现的全球流量管理和负载均衡服务,可以帮助企业在短...

实例的节点故障处理机制

当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于测试、培训、非核心业务等场景,生产环境建议使用副本集实例或分片集群实例以保障服务的高可用。副本集 图 1.副本集架构 ...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:在左侧导航栏,选择 连续复制型容灾>云上容灾。在页面右上角,选择容灾站点对。单击容灾中心的 受保护服务器 页签。单击...

网络资源

故障转移:当主要DNS服务器发生异常时,能够自动切换到备份DNS服务器,确保域名解析的连续性和稳定性。防火墙配置错误 指在配置防火墙规则时出现错误或不完整的情况,导致防火墙无法正确地过滤和控制网络流量。配置错误可能导致防火墙无法...

健康检查

为确保ALB后端服务器的业务可用,您可以通过为ALB服务器组配置健康检查检查服务器组的运行状况,以避免后端服务器异常对业务的影响,并提升业务可靠。本文为您介绍如何创建、编辑和删除健康检查等操作。背景信息 ALB 支持基于每个...

如何管理故障

每一个改进措施,需可落地可验收,确保改进措施对提升业务连续性、规避重复类似故障有帮助及效果。更新故障通告 在 故障 页面点击 故障标题 进入 故障详情 页面;2.在 故障详情 页面点击 更新故障通 知按钮出现 故障通告预览 弹窗;3.在 ...

步骤五:应用容灾

确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 页面,选择 恢复网络、...

部署高可用及共享存储Web服务

1个公网负载均衡CLB:基于对流量按需分发的能力,可以将流量分发到不同的后端服务器,可消除系统中的单点故障,当某个服务器发生故障时,CLB会自动将请求分配到其他正常的服务器上,从而保证服务的连续性和稳定性。2个文件存储NAS:实现多...

DescribeLoadBalancerListeners-查询负载均衡监听列表

取值:on:是 off:否 off HealthyThreshold integer 健康检查连续成功多少次后,将后端服务器的健康检查状态由 失败判定为 成功。取值范围:2~10。4 XForwardedFor_proto string 是否通过 X-Forwarded-Proto 头字段获取负载均衡实例的监听...

SetLoadBalancerHTTPListenerAttribute-修改HTTP监听...

4 UnhealthyThreshold integer 否 健康检查连续失败多少次后,将后端服务器的健康检查状态由 success 判定为 fail。取值:2~10。说明 在 HealthCheck 值为 on 时才会有效。4 HealthCheckTimeout integer 否 接收来自运行状况检查的响应需要...

CreateLoadBalancerHTTPListener-创建HTTP监听

4 UnhealthyThreshold integer 否 健康检查连续失败多少次后,将后端服务器的健康检查状态由 成功判定为 失败。取值:2~10。说明 在 HealthCheck 值为 on 时才会有效。4 HealthCheckTimeout integer 否 接收来自运行状况检查的响应需要等待...

加速跨地域应用实现高可用容灾

健康检查健康阈值 针对健康检查状态变化所需要的连续健康检查次数,即从成功到失败的连续健康检查失败次数或从失败到成功的连续健康检查成功次数。取值范围2~10。本文保持默认配置,为 3 次。在 配置审核 配置向导页面,确认监听和终端节点...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 面板,选择 恢复...

配置健康检查

将边界路由器VBR(Virtual Border Router)连接至云企业网实例后,您可以通过云企业网的健康检查功能探测VBR实例关联的物理专线的连通。在云企业网和本地数据中心存在冗余路由的场景下,健康检查探测到物理专线故障后支持自动切换到可用...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

基于Kubernetes容器集群的容灾架构与方案

为了确保系统能够在各种异常故障场景下快速恢复并保持业务连续性,您必须为系统设计一套完善的容灾方案。本文以Kubernetes集群(包括 容器服务 Kubernetes 版 的ACK集群、第三方云厂商集群和本地IDC集群)为基础,结合阿里云的网络、数据库...

最佳实践

用户可以通过该功能建立关键业务的容灾能力,保护数据库数据的同时提升业务的连续性。版本控制 版本控制是针对存储空间(Bucket)级别的数据保护功能。开启版本控制后,针对数据的覆盖和删除操作将会以历史版本的形式保存下来。用户在错误...

ECS容灾常见问题

在自建数据中心发生重大故障时,几分钟内在云上拉起,达到分钟级RTO。ECS容灾持续复制型 支持哪些操作系统?CDR支持主流的Windows和Linux操作系统。更多信息,请参见 操作系统。ECS容灾服务目前仅支持以下服务器版本。操作系统 版本 ...

ECS容灾常见问题

在自建数据中心发生重大故障时,几分钟内在云上拉起,达到分钟级RTO。ECS容灾持续复制型 支持哪些操作系统?CDR支持主流的Windows和Linux操作系统。更多信息,请参见 操作系统。ECS容灾服务目前仅支持以下服务器版本。操作系统 版本 ...

什么是多活容灾

与传统的灾备的最主要区别就是 多活 里的所有站点同时对外提供服务,不仅解决了容灾本身问题,还提升了业务连续性,实现了容量的扩展。多活容灾解决的问题 灾备容灾建立在数据级容灾的基础上,常用的实现方式是在备机房构建一套相同的应用...

创建和管理服务器组

不健康阈值 健康检查连续失败多少次后,将后端服务器的健康检查状态由成功判定为失败的次数。将新的配置保存为健康检查,方便下次快速复制使用。选中将新的配置保存为健康检查模板并输入自定义健康检查名称。说明 此参数仅在 选择并加载...

专家成长计划服务内容说明

业务连续性管理;异常事件处理;故障生命周期管理;变更发布管理;稳定性度量机制等方法和工具,提升企业业务的稳定性。30人 阿里云云计算ACP认证技术详解 24 ECS\SLB\VPC\RDS\安全\ESS\OSS\CDN的概念、架构、原理、定义和操作使用,内容...

附录:SOFAStack 产品目录

金融级数据容灾 基于蚂蚁集团内部多年的金融级数据容灾场景,针对不同业务场景提供了多种机房级数据容灾解决方案,保障数据的稳定性与业务的连续性。数据库流量分配 提供了基于规则的流量分发机制,通过部署多个数据库实例(如一写多读)的...

使用云监控功能监控网站环境(部署于ECS实例)

同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要完成以下操作:检查ECS监控插件运行情况,确保监控信息能够正常采集。如果安装失败则需要手动安装插件,具体...

集群系列

且单个只读实例没有灾备,因此为了保障业务的可用性和连续性,建议至少创建两个只读实例,以确保某一个只读实例发生故障时,另一个只读实例可以继续提供服务。购买集群系列实例时,建议您选择多可用区部署,以实现跨可用区的容灾能力。架构...

企业单AZ架构升级到多AZ

多可用区部署的常见应用:关键业务系统:对于需要高可用性和连续性的关键业务系统,如金融服务、医疗保健和电子商务平台,多AZ部署可以确保系统即使在一个数据中心发生故障的情况下也能继续运行。容灾要求高的场景:当组织需要符合特定的...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

商业化AHAS CHAOS故障演练是阿里巴巴内部广泛使用的演练平台云上版本,具有灵活的流程编排、丰富的故障场景等特点,可以帮助企业提升分布式系统的容错能力,保障在企业上云或往云原生系统迁移过程中业务的连续性。AHAS CHAOS故障演练在...

开启边界路由器(VBR)健康检查功能

开启边界路由器(VBR)的健康检查功能,确保及时发现出现故障的物理专线,也可修改VBR的健康检查配置。接口说明 您可以通过为 VBR 实例设置健康检查,监测本地数据中心与阿里云之间物理专线的连接状况,以便及时发现问题。在使用健康检查...

金融行业最佳实践

金融两地三中心 业务挑战:金融源站往往采用两地三中心的架构,当某个源站发生故障时,需要快速地将业务切换到其他可用源站,保障业务的连续性和稳定性。方案优势:阿里云DCDN提供多源负载均衡能力,实现多源异地灾备,可以按照主备、权重...

事件中心

通知风险和异常 如果发生了实例资源可用或性能受损的事件,例如因实例超规格使用造成性能受损、因运营商链路丢包影响业务可用、实例到期费用预警等,阿里云会将事件推送至 NIS 控制台的事件中心进行展示,建议您及时响应这些事件,避免...

日志管理

如果发生故障,您可以下载日志或提供日志上传路径给阿里云工程师定位问题。下载日志 在浏览器中,输入 https://<块网关IP地址>访问本地块网关控制台。输入用户名和密码,单击 确认。单击 关于,进入 关于系统 页面。找到 日志信息 区域,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库备份 DBS 弹性公网IP 轻量应用服务器 云服务器 ECS 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用