步骤七:故障切换

保护组进入增量复制状态,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作故障切换类型 数据同步切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止再进行最后一轮数据同步,等待数据同步...

容灾管理服务介绍

针对有高可用需求的用户,CADT容灾管理服务提供规划、优化、部署、演练高可用业务的能力,在业务上线前及业务上线定期进行容灾演练,验证系统是否能够抵御资源故障或者AZ故障,保障系统健壮性。主要功能 容灾规划 在用户部署资源前,通过...

采集ping和tcping数据

本文介绍通过Logtail采集ping和tcping数据到日志服务Metricstore的操作步骤。前提条件 已创建Project和MetricStore。具体操作,请参见 创建Project 和 创建MetricStore。使用限制 只有Linux Logtail 1.0.31及以上版本的Logtail支持采集ping...

创建虚拟机并安装操作系统

步骤:安装Windows操作系统 BIOS(Basic Input Output System)和UEFI(Unified Extensible Firmware Interface)是指创建ECS实例过程中对系统盘的启动模式,您可以根据需要任选一种模式来安装操作系统,安装完成将以该模式来启动系统...

如何解决实例迁移的宕机问题?

因Xen环境裁撤项目、ECS过保迁移、经典网络迁移到VPC等涉及虚拟化环境迁移需求,可能会导致一部分实例系统在迁移出现kernel panic宕机、蓝屏、找不到引导设备(INACCESSIBLE_BOOT_DEVICE)等问题。本文主要为您介绍这些问题的解决方案。...

应用场景

故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘故障都能对业务连续性形成改进。其他应用场景 降低管理难度:同时维护多套监控系统操作成本高,降低管理难度。规避报警风暴:单监控源的报警不能...

故障演练

故障演练能力是ADP基于阿里云故障演练产品AHAS提供的一项能力,在线上集成环节即可对线下交付中常见的各类故障场景下产品编排的容错性、可靠性和可恢复性进行演练,保障编排稳定可靠。在进行故障演练之前,需要进行以下步骤:创建产品;...

预警规则

流程说明 操作流程 创建钉钉机器人并配置订阅内容,请查阅 钉钉机器人管理 配置预警规则,在 系统管理>预警规则 界面,在 价签缺电预警或显示延迟预警 中单击 设置,输入设置的阈值,单击 确认,完成设置。预警处置,当接收到钉钉推送消息...

部署初始化

请输入:用户名:owner 密码:changepassword 登录成功显示下面的界面:输入命令:ls/etc/sysconfig/network-scripts 上面示例,显示有6个网卡配置文件(ifcfg-enp61s0f0、ifcfg-enp61s0f1、ifcfg-enp95s0f0、ifcfg-enp95s0f1、ifcfg-...

什么是故障

定义 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。“用户体验下降”说明故障的核心要关注用户感受,可通过客服渠道获知用户投诉,也可...

DataGrid

预览效果如下图所示:显示操作列 取消 开启 显示操作列 的开关,DataGrid会在右侧生成一个 操作列,可以在 操作列 中配置各种操作。对于每一个操作,可以配置其 显示文案、触发事件 等。属性 说明 示例 显示文案 该操作在DataGrid操作列...

通过CADT实现NLB可用区级容灾演练

云速搭CADT(Cloud Architect Design Tools)容灾管理服务提供规划、部署、演练高可用业务的能力,在业务上线前及业务上线定期进行容灾演练,验证系统是否能够抵御资源故障或者可用区故障,保障系统健壮性。本文为您介绍如何通过CADT实现...

通过CADT实现ALB可用区级容灾演练

云速搭CADT(Cloud Architect Design Tools)容灾管理服务提供规划、部署、演练高可用业务的能力,在业务上线前及业务上线定期进行容灾演练,验证系统是否能够抵御资源故障或者可用区故障,保障系统健壮性。本文为您介绍如何通过CADT实现...

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活容灾解决方案,您...

Windows系统的ECS实例ping外网地址提示“一般故障”...

本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...

设置宕机自动迁移

为了降低物理故障对业务的影响,阿里云为您提供专有宿主机DDH宕机自动迁移的功能。本章节介绍在创建DDH如何开启或者关闭宕机自动迁移。背景信息 宕机自动迁移开启,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启宕机自动迁移...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生,可以...

ZooKeeper的使用场景和MSE ZooKeeper的优势

场景:自研系统的分布式协调 Master的选举:抢占主节点的方式:系统需要选举出1个Master来执行任务,如下图所示,Node1为Master,它会创建临时主节点,并将自己的信息写入Master,当Node1宕机,临时主节点被释放,此时Node2和Node3会争抢...

GTM如何实现同城容灾

概述 方案介绍 同城容灾指应用服务部署是多机房、单地域时,当其中一机房出现故障时,全局流量管理(简称GTM)可实现业务7*24小时稳定运行,即使单机房故障也不影响业务的可持续性,保障用户访问连续不间断。本文将以同城双活的灾备架构为...

访问策略

概述 访问策略是针对用户配置相应的访问策略,在此环节...注意:如未设置备用地址池,则代表当默认地址池出现故障时,系统将摘除故障地址,但不支持智能切换。如默认地址池摘除故障地址,还有存活的IP地址,那么则响应剩余存活的IP地址。

源为PolarDB-X的功能规范和约束说明

在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据的时间与故障发生时的时间之差小于RPO(如5分钟),则可以业务优先恢复为准则切流。切流可能有5分钟...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

删除ECS实例的默认安全组规则无法ping通ECS实例

问题描述 无法ping通ECS实例,排查ECS实例的防火墙和网卡IP等配置,均无异常,即使回滚ECS实例的操作系统,仍然无法ping通ECS实例。问题原因 ECS实例的安全组中默认包含开放ICMP协议的规则,即允许ping通ECS实例,若该规则被删除,则无法...

操作指南

系统操作列中当流程节点中的识别方式为系统操作识别时,以“流程-节点-系统操作”维度保存话术,“系统操作”列显示内容为“操作类型-操作名称”。对于节点识别类型为“意图自动识别”时,“系统操作”列无内容。对于节点识别类型为“系统...

源为PolarDB-X的功能规范和约束说明

在出现故障(如网络中断、机房批量设备故障或互联网数据中心IDC故障),且DTS任务存在延迟的情况下,此时如更新至目标库的最后一条数据的时间与故障发生时的时间之差小于RPO(如5分钟),则可以业务优先恢复为准则切流。切流可能有5分钟...

功能特性

自动SQL优化 智能压测 确认数据库实例规格是否需要扩容,并验证在真实业务场景下的实际效果,降低上线引发故障的风险。此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索...

业务连续性

数据的备份和恢复 故障时流量转移可以很好地避免地域级别故障造成业务中断,但此时故障地域的数据服务也可能同样不可用。为了让业务在备地域的应用启用期间也能正常运转,您需要根据自身的业务设计合适的方案,在非故障期间将数据从主地域...

如何配置流转规则

选择 触发故障 需要配置故障影响服务、故障等级覆盖。配置完成之后点击 提交即可。仅触发报警:确定 报警触发规则:设置触发的持续时长和次数对报警进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发报警,只要将时长和次数分别设置...

容灾恢复

集群中通常一个服务有多个服务提供者,其中部分服务提供者可能由于网络、配置、长时间 fullgc、线程池满、硬件故障等导致长连接还存活但是程序已经无法正常响应。单机故障剔除功能会将这部分异常的服务提供者进行降级,使客户端的请求更多...

高可用性

当可用区故障恢复,通过恢复操作,恢复被切流的可用区,并自动移除切流时补充的计算资源。从而在潜在的可用区故障情况下,实现对客户业务无感知的切换,提升服务稳定性。更多信息,请参见 部署和使用跨可用区实例。AliES内核增强 阿里云...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

CentOS Linux停止维护如何应对?

CentOS官方已计划停止维护CentOS Linux项目,阿里云上CentOS Linux公共镜像来源于CentOS官方,当CentOS Linux停止维护,阿里云将会同时停止对该操作系统的支持。本文主要介绍CentOS Linux操作系统停止维护带来的影响,并针对影响提供应对...

创建业务虚拟机和安装操作系统

本文描述了用户如何创建业务虚拟机和操作系统安装。前提条件 完成操作系统ISO镜像文件的上传,详细过程请参见 vCenter控制台上传ISO镜像。完成专属VMware环境业务网段创建,详细过程请参见 创建业务网段。任务 业务虚拟机创建 操作系统安装...

操作流程

步骤七:故障切换 数据同步切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止再进行最后一轮数据同步,等待数据同步完成再启动切换。这样可以保证容灾端与生产端数据完全一致,无数据丢失。该切换模式适用...

操作流程

步骤七:故障切换 数据同步切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止再进行最后一轮数据同步,等待数据同步完成再启动切换。这样可以保证容灾端与生产端数据完全一致,无数据丢失。该切换模式适用...

GTM实现跨网访问加速与故障切换

概述 方案介绍 大部分企业的应用服务都会使用多个运营商的IP地址,因此可能会存在跨网延迟、丢包、故障不可用等问题,而全局流量管理产品方案可以根据用户请求源地址的运营商,解析就近的应用服务器IP地址,实现就近接入、访问加速、故障...

GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地中心灾备架构为读者讲解异地灾备的...

SOFAMesh 服务网格总体经济影响报告

故障复盘资源消耗节省 对于监管要求极高的金融企业,在故障出现要进行全面复盘,以确保系统未来的可用性,避免类似事故发生。但复盘也消耗大量开发运维人员的时间,对工作效率产生影响。组件能力提升 解耦的微服务的公共组件、业务组件...

服务等级目标SLO概述

阿里云 服务网格 ASM提供了开箱即用的基于服务等级目标SLO(Service Level Objectives)的...假设在3天内错误率保持为阈值的两倍,在第故障解除。短时间窗口能够使告警在6小时解除。若无短时间窗口,即使不存在故障,告警也会持续3天。

使用须知

对于4 GiB以上内存的云服务器,请选择64位操作系统,因为32位操作系统存在4 GiB的内存寻址限制。目前支持的64位操作系统包括(请以实例购买页面上显示的版本为准):Alibaba Cloud Linux 64位 CoreOS 64位 CentOS 64位 Debian 64位 FreeBSD...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
运维安全中心(堡垒机) 云安全中心 数据库自治服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用