组复制简介

数据 强 一致性 在组复制中,事务总是先传输到集群中其他节点,然后写入Binlog文件,这保证无论主节点在什么时刻发生故障,重新启动后数据都不会比集群选出的新主节点多。旧主节点故障重启后,能够自动加回集群,拉取它缺失的Binlog,就...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

消息(Message)

云消息队列 RocketMQ 版 的消息模型具备如下特点:消息不可变性 消息本质上是已经产生并确定的事件,一旦产生后,消息的内容不会发生改变。即使经过传输链路的控制也不会发生变化,消费端获取的消息都是只读消息视图。消息持久化 云消息...

JVM注入动态脚本

public class UserServiceInterceptor {/必须包含该方法,且该方法的定义不可改变(返回值、类名、参数均不可改变)。参数context包含的内容参⻅《脚本入参说明》。public Object run(Map,Object>context){/获取getUserById方法的实际入参/...

阈值检测

应用场景 当您发现经常收到某条告警,但是系统又没有发生任何故障时,可能是因为当前的阈值设置得不够合理,或者是该阈值适合某些应用或接口。这种场景下,您可以使用 建议阈值 功能,对告警规则的阈值进行调整,或对部分应用、接口的...

创建节点池

网络配置 专有网络 默认选择集群VPC,节点池创建完成后不可更改。虚拟交换机 节点池的扩缩容将根据 扩缩容策略,在选择的虚拟交换机可用区下弹出节点。您可以在已有虚拟交换机列表中,根据可用区选择交换机。如果没有您需要的交换机,可以...

如何使用Prometheus监控Windows

指标名称 指标级别 指标来源 指标说明 可用物理内存(MB)Critical WMI(AvailableMBytes)多个进程之间对RAM的争用将不可避免地导致分页,进而导致性能下降。为了保证机器继续运转,需要确保机器有足够的RAM来处理日常的工作负载。持续的...

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

产品架构

计算节点故障恢复快:计算节点发生Failover之后,数据可以按需从分布式的共享存储异步拉取。因此Failover的速度非常快。Hologres采用的是第三种存储计算分离架构,Hologres的存储使用的是阿里自研的Pangu分布式文件系统(类似HDFS)。用户...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

配置健康检查

在云企业网和本地数据中心存在冗余路由的场景下,健康检查探测到物理专线故障后支持自动切换到可用路由,保障流量传输中断。背景信息 工作原理 在您为VBR实例配置健康检查后,阿里云默认每隔2秒从每个健康检查源IP地址向本地数据中心的...

专家成长计划服务内容说明

注:对于在专家服务范围内的第三方软件问题,客户登录阿里云社区获取免费咨询,或联系云市场商家寻求帮助。3.前提条件 甲方需至少提前十五个工作日向阿里云发送申请需求,由阿里云专家服务团队根据专家成长计划服务内容进行相应的专家...

基本概念

RPO Recovery Point Objective(数据恢复点目标),指应用发生故障时预期的数据丢失量。例如,RPO=15 分钟,表示在应用发生故障时,最近 15 分钟的数据无法在云上恢复。RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云...

AccessGatewayFailover

AccessGatewayFailover事件提示您智能接入网关设备主IPsec链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 AccessGatewayFailover INFO agwfailover Access Gateway Failover 可能原因 IPsec链路网络故障。处理方法 无需处理。...

DeviceWanLinkDown

DeviceWanLinkDown事件提示您设备WAN链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceWanLinkDown CRITICAL down Wan Link Down 可能原因 WAN链路出现故障。处理方法 请提交工单,联系阿里云工程师。icmsDocProps={'...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,分钟级的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障。

实例的节点故障处理机制

说明 Mongos节点采用单节点架构,当某个Mongos节点发生故障,该节点相关服务可用。在生产环境的应用程序请勿连接单个Mongos节点,推荐使用Connection String URI连接所有Mongos节点。当使用Connection String URI进行连接时,如果某个...

为RDS创建灾备实例

当RDS实例所在可用地域发生故障时,基于灾备实例快速恢复服务。应用场景 创建RDS灾备实例可以为主实例提供数据备份和灾难恢复保障,当主实例出现故障或可用时,灾备实例将自动接管数据服务,保证业务的连续性和可用性。风险等级 默认...

SA混合云存储阵列

克隆功能:支持卷克隆功能,创建读写的卷克隆副本。故障恢复:支持故障切换和故障恢复功能。当控制器故障时,支持在线故障切换,业务连续性受影响。阿里云混合云存储阵列将云存储的高性价比和扩展性与本地数据中心架构相结合,帮助...

自助诊断GPU节点问题

当GPU发生不可纠正的错误时,会上报此事件,该错误也会同时反馈给您的应用程序。通常需要重置GPU或重启节点来清除这个错误。61 Internal micro-controller breakpoint/warning.GPU内部引擎停止工作,您的业务已经受到影响。62 Internal ...

高可用版

优势 可用性 采用经典高可用架构,主备之间通过复制(默认半同步)实现数据同步,一旦主库发生故障,将迅速检测并触发主备切换来保证可用性。备库故障对业务无影响,但会快速被检测到并触发备库自愈。可靠性 计算与存储分离,计算节点的...

高压缩引擎(X-Engine)介绍

高压缩引擎(X-Engine)多节点架构用于保障集群的高可用,当系统发生故障时,读写的主节点和只读节点之间会自动进行故障切换(Failover),保证了服务可用性低于99.99%。高压缩引擎(X-Engine)多节点架构图如下:产品优势 超大存储...

光模块故障

本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

应用场景

当其中一部分ECS实例发生故障后,CLB 会自动屏蔽故障的ECS实例,将请求分发给正常运行的ECS实例,保证应用系统仍能正常工作。同城容灾(多可用区容灾)为了提供更加稳定可靠的 CLB 服务,CLB 已在各地域部署了多可用区以实现同地域容灾。当...

备份和灾难恢复

阿里金融云可以支持同城双活/灾备、两地三中心等架构方式。1.同城双活 同城双活、灾备是阿里金融云的...故障切换回切:DNS将生产IP从原生产中心修改到灾备中心,实现跨Region的故障切换和服务恢复机制,主站发生故障时,由备站继续提供服务。

托管节点池节点自动恢复

正常:当前节点存在被发现的故障故障:当前节点发现故障。恢复失败:当前节点无法恢复。当节点的运行状态发生变化并持续一段时间后,ACK将判定该状态符合故障状态,存在节点故障。当发现节点故障时,ACK会根据故障原因触发对应恢复...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

AI助手使用说明

安装AI助手并开启PAI的作业监控和恢复功能后,当训练任务发生故障或异常时,能自动上报故障信息、隔离问题节点,无需人工干预即可快速恢复任务。本文为您介绍AI助手的具体配置方法。前提条件 已创建带有ACK灵骏托管版的集群。具体操作,请...

故障协同处理(基于钉钉)

(c)取消故障 按钮:故障一旦取消,则此故障不支持任何操作。(2)故障过程 H5界面:故障过程包含过程详情、故障影响面、故障状态和时间线四个子模块,点击 恢复 按钮前需校验四个模块的内容完成情况,全部完成后则进行故障的复盘。恢复...

数据恢复

如果 云数据库ClickHouse 实例已经进行了数据备份,您可以通过数据...说明 克隆实例付费类型与源集群相同,且不可变更。单击 立即购买。购买成功后,您可以在 集群列表 页面查看克隆实例。说明 创建克隆实例一般需要10~15分钟,请耐心等待。

标准版-单副本

当数据库节点发生故障时,数据会丢失,系统会重新拉起一个Redis进程(没有数据),当节点故障业务自动切换完成后,应用程序需要将数据重新预热。单副本架构支持以下功能:自动或手动备份、离线全量Key分析 和 实例回收站。若您对数据有...

主从(备)切换原因

实例故障 阿里云检测到实例发生故障,无法正常使用,系统会发起主从(备)切换,及时恢复业务正常运转,缩小故障影响范围。主从(备)切换完成后,实例状态会显示运行中,您需要进行任何操作,实例可以正常运行。您可以在 服务可用性 ...

设计方案

系统可预见的稳定性风险包含软硬件故障不可预期的流量,小到线程级风险,大到地域级灾难,从此出发可通过容灾、容错、容量三方面建立系统架构稳定性。容灾 容灾就是在灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生存系统...

基于MSE云原生网关实现同城多活

在同城多活的场景下,能够确保对跨可用区的多个业务集群的请求实现高效负载均衡分配,在单个可用区内的业务集群发生故障时,在1秒内完成故障节点的自动摘除从而实现故障转移,有效的保障服务连续性和高可用性。容灾概述 目前云上容灾主要...

WAN+4G链路备份

当主用链路发生故障时,自动切换至备用链路。您可以在智能接入网关管理控制台查看当前智能接入网关设备接入Internet的链路状态。前提条件 您已经从运营商处购买了一个传输数据流量的4G卡并插入到了智能接入网关设备上。背景信息 智能接入...

同城容灾架构概述

非机房级故障(某个机房的单产品故障,例如其中一个机房的ECS服务器损坏),可以通过对单产品的灾备设计来保障发生故障时系统及时切换。应用设计相关参考标准 应用设计相关参考标准如下:无状态化。分布式集群设计、避免单点逻辑出现。幂等...

HINT语法使用说明

使用限制 仅读写模式为 写(自动读写分离)的集群地址支持HINT语法,只读 模式下的集群地址和主地址均支持HINT语法。关于集群地址的读写模式信息,请参见 集群地址的读写模式。注意事项 HINT的路由优化级别最高,受一致性级别和...

通过CADT实现NLB可用区级容灾演练

NLB实例的 可用区J 发生故障时,NLB能够在短时间内停用该可用区,并继续使用其他启用的可用区提供服务。步骤四:容灾切回演练 容灾切回功能:NLB可用区故障恢复后,验证NLB的容灾恢复能力。容灾切回概念:与容灾切换相反,将资源切回到执行...

响应云盒维修事件

当云盒中的硬件设备发生故障需要更换时,阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。本文为您介绍云盒维修相关的流程,以及如何响应云盒维修事件。背景信息 配置云盒计算资源时,您需要配置一定的...

什么是混合云容灾服务

RTO Recovery Time Objective(恢复时间目标),指故障发生时,在云上将应用恢复运行所需要的时间。混合云灾备一体机 阿里云推出的具有容灾备份功能的一体机。混合云容灾定价 HDR支持按量付费和包年包月资源包。关于混合云容灾HDR的计量项...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 云服务器 ECS 负载均衡 轻量应用服务器 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用