灾备方案介绍

图 1.Redis容灾架构演进 灾备方案 灾备级别 说明 单可用区高可用方案★主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案...

最佳实践

本文使用垂直堆叠柱状图、区域图、基本散点图、环图、通用标题5种图表组件,使用美化工具箱内的一键美化和智能主题功能,再结合工具栏内的滤镜配置功能,快速调整一个可视化应用的...视频链接 DataV小课堂直播视频:美化工具箱直播使用教程。

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,数据库、MQ等中间件异常事件),以及集成各业务自建的定位工具能力,并在故障及风险预警的应急过程中进行可疑原因定位,帮助促进故障及风险预警初因定位的时长缩短。...

产品简介

事件中心 统一的报警、事件、故障任务流转处理 事件中心是统一的任务流转中心,统一管理整个企业业务系统运行过程中的所有报警、事件、故障。管理系统历史的所有报警记录、报警消息及时通知订阅对象,帮助企业实时发现问题,规避风险;管理...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生的故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

功能发布记录

本文介绍视频直播Live的产品功能和对应的文档动态。2024-02 功能名称 变更类型 功能描述 相关文档 实时监控 升级 新增推流过程质量监控接口,通过接口可以获取到主播到CDN节点的接收音视频帧率、音视频时间戳、接受头次数、音视频码率、...

快速使用专属集群MyBase

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...

替换主机

当主机发生故障后,如果您创建 专属集群MyBase 时 主机故障处理策略 选择的是 手动替换主机,则您可以通过手动替换主机来解除故障。前提条件 专属集群MyBase 引擎的为MySQL,且主机存储类型为本地SSD盘。背景信息 当主机发生故障时,系统会...

跨可用区容灾

当生产站点因为不可抗力因素(比如机房火灾、断电)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,ECS容灾服务支持业务的跨可用区(Availability Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的...

副本集架构

隐藏节点(Hidden节点)通过操作日志(oplog)同步主节点的数据,可在从节点故障时接替该故障节点成为新的从节点,也可在只读节点故障时接替该故障节点成为新的只读节点,保障高可用。隐藏节点仅用作高可用,对客户端不可见。隐藏节点不在...

AI助手使用说明

PAI AIMaster和灵骏AI助手是一套全自动化的故障快速恢复系统。安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置...

系统架构

本文为您介绍云数据库Memcache的系统架构。简介 云数据库Memcache版采取集群版架构。云数据库Memcache版内置数据分片及读取算法,整体过程对用户透明,免去用户开发及运维烦恼。每个分片节点采取主备架构保证服务高可用。系统架构 云数据库...

可运维性咨询服务内容说明

乙方专家团队通过对甲方应用系统和云平台的调研,评估系统是否具备故障演练和逃逸能力,并基于阿里巴巴多年业务的真实线上故障库的积累,通过模拟调用延迟、服务不可用、机器资源满载等,真实检验应用的高可用能力,同时考察相关人员对问题...

基于ack-lingjun-aiast组件实现集群自动化运维

系统能够实时监测并分析系统的运行状态,快速检测故障并采取恢复措施,例如硬件故障、网络故障、软件错误等,从而降低运维成本,提高系统可靠性和稳定性。组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,...

托管节点池概述

如果您希望将节点进行分组纳管,同时降低节点的运维负担,例如操作系统(OS)CVE漏洞自动修复、kubelet自动升级、节点故障时重启节点等,您可以启用托管节点池。托管节点池是ACK推出的自动化运维型节点池,在普通节点池的基础上支持多种...

混沌工程缓存实战系列-Redis

Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也会随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的...

容灾预案

系统则会将故障地址池中的地址全部设置为 永远离线 的工作模式,地址池状态变为不可用,并按照您配置的访问策略自动执行切换。注意:永远离线是地址的一种工作模式,您可以参阅 地址池配置 文档来了解地址工作。6.回滚 指容灾演练或流量...

云盒故障服务器维修流程

流程说明 对于故障服务器的更换和数据擦除工作,按以下流程进行:现场拆除 阿里云工程师与客户预约上门时间,并按约定时间到现场拆除云盒内的故障服务器。拆除过程需严格按照内部工单进行操作,将故障服务器关机下架。如果服务器没有关机,...

查看实例的系统日志和屏幕截图

系统通过串口打印输出的日志会包含两种类型的信息,一类是系统启动开机时的日志内容,另一类是系统内核故障或异常时的日志内容。更多详情,请参见《云栖社区》博客 操作系统有异常?诊断日志来帮忙。使用限制 使用该功能时您需要注意如下...

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

操作系统迁移中问题(Windows)

本文介绍Windows操作系统迁移相关的故障问题及解决方案。异常报错提示Run OSM Check Script Error,错误码M10_1001,怎么办?异常报错提示Run OSM Check Script Error,错误码M10_1002,怎么办?异常报错提示Run OSM Check Script Error,...

功能概述

③ 容灾演练或流量切换完成后,如希望恢复到执行前的访问策略,那么可以通过 回滚功能 实现,操作回滚,系统则会将故障地址池中的地址恢复为“智能返回”的工作模式,并会恢复访问策略。使用指南您可以参阅 容灾预案 文档。

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一环。这些消息服务之前并没有在系统中实际经历过真实流量考验,其中某些隐患或缺陷很难被发现...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障的发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

什么是混合云容灾服务

解决的核心问题 混合云容灾解决的核心问题如下:应用级容灾保障业务持续性(Business Continuity):在数据中心故障或长时间系统维护作业时,在云上快速恢复应用运行,缩短业务停机时间,极大减少损失。数据级容灾:在数据中心备份您的数据...

故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...

概述

分布式系统将计算任务和数据分布在多个节点上以实现更高的性能、可靠性和可扩展性,当一个节点发生故障或错误时,其他节点可以继续工作,相比于单机系统,架构本身就有较高的节点容错性。但随着服务拆分,更多组件的引入,分布式系统的复杂...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

容灾管理服务介绍

针对有高可用需求的用户,CADT容灾管理服务提供规划、优化、部署、演练高可用业务的能力,在业务上线前及业务上线后定期进行容灾演练,验证系统是否能够抵御资源故障或者AZ故障,保障系统健壮性。主要功能 容灾规划 在用户部署资源前,通过...

故障隔离

故障隔离是在服务实例出现故障时,实现实例级别的精细化摘流隔离,使故障影响范围更小,提高服务的可用性。添加故障隔离规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障隔离 页签。单击...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

容灾演练断网方式说明

如果ECS绑定了多块辅助网卡,每一块辅助网卡对应的安全组策略同样会进行故障注入,故障实验恢复时,系统会还原ECS绑定的原始安全组策略及辅助网卡对应的原始安全组。可用区断网在交换机级别进行模拟,而安全组断网在实例级别进行模拟。针对...

应用场景

物联网设备无时无刻不在产生海量的设备状态数据和业务消息数据,这些数据有助于进行设备监控、业务分析预测和故障诊断。背景信息 设备将原始数据通过 MQTT 协议发送到物联网平台,经由物联网平台将数据转发到消息服务系统,继而通过流计算...

网络资源

容灾:建立容灾和高可用的系统架构,将系统部署在多个地理位置或数据中心,并使用负载均衡和故障切换技术,以确保即使发生网络分区,系统仍然可以继续提供服务。网络闪断故障 指网络连接在短时间内频繁中断和恢复,造成网络连接不稳定的...

指定或排除ECS规格族创建Pod

如果排除了某些ECS规格族,则系统在选择规格时会排除这些规格族,从其他ECI支持的ECS规格族中选择规格。说明 可以配合使用 k8s.aliyun.com/eci-instance-generation 来指定或排除ECS规格代数,实现更精细的规格控制。支持指定或排除的ECS...

指定或排除ECS规格代数创建ECI Pod

如果排除了某些ECS规格代数,则系统在选择规格时会排除这些规格代数,从其他ECI支持的ECS规格代数中选择规格。支持指定或排除的ECS规格代数,及其包含的ECS规格族如下:架构 ECS规格代数 ECS规格族 ARM 8 g8y、c8y、r8y x86 7 g7、c7、r7、...

指定或排除ECS规格代数创建Pod

如果排除了某些ECS规格代数,则系统在选择规格时会排除这些规格代数,从其他ECI支持的ECS规格代数中选择规格。支持指定或排除的ECS规格代数,及其包含的ECS规格族如下:ECS规格代数 ECS规格族 7 g7、c7、r7、hfc7、hfg7、hfr7、g7ne 6 g6e...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
视频直播 数据库自治服务 负载均衡 云安全中心 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用