自动/手动主备切换

当系统发生故障时,读写的主节点和只读节点之间会自动进行故障切换(Failover),系统自动选举新的主节点。集群中每个节点都有一个故障切换(Failover)优先级,该优先级决定了故障切换时每个节点被选举为主节点的概率高低。当多个节点的...

自动/手动主备切换

当系统发生故障时,读写的主节点和只读节点之间会自动进行故障切换(Failover),系统自动选举新的主节点。集群中每个节点都有一个故障切换(Failover)优先级,该优先级决定了故障切换时每个节点被选举为主节点的概率高低。当多个节点的...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请...

多节点部署架构

多节点的架构用于保障集群的高可用,当系统发生故障时,读写的主节点和只读节点之间会自动进行故障切换(Failover)。此外,通过 PolarDB 的数据库代理功能,在这些节点的基础上实现读写分离等功能,具体参见 数据库代理。同个集群...

CreateDBClusterEndpoint-创建自定义集群地址

当 PolarDB MySQL 版集群地址的读写模式为 可写(自动读写分离),或集群地址的读写模式为 只读且负载均衡策略为 基于活跃请求数负载均衡时,支持设置行存/列存自动引流。仅 PolarDB MySQL 版支持将一致性级别设置为全局一致性。如果...

EasyCkpt:AI大模型高性能状态保存恢复

如果PyTorch大模型训练场景的任务运行失败,您可以使用EasyCkpt保存的最新的Checkpoint来重新运行任务,无需重复计算,减少时间和成本的浪费。EasyCkpt是PAI为PyTorch大模型训练场景而开发的高性能Checkpoint框架,通过实现接近0开销的模型...

附录:SOFAStack 产品目录

传统实现方式是在系统代码里指定任务的执行顺序,当业务发生变化时需要修改代码才可以正常工作,维护性很差。使用 SOFAStack 任务调度中的任务编排功能,可以轻松完成任务之间的依赖调整,大大提高了维护性,并可以直观地看到任务的...

Redis客户端重连指南

引发暂时性故障的原因 原因 说明 故障触发了高可用机制 云数据库Redis支持节点健康状态监测,当监测到实例中的主节点不用时,会自动触发主备切换,例如将主节点和从节点进行互换,保障实例的高可用性。此时,客户端可能会遇到下列暂时性...

Tair客户端重连指南

引发暂时性故障的原因 原因 说明 故障触发了高可用机制 云原生内存数据库Tair 支持节点健康状态监测,当监测到实例中的主节点不用时,会自动触发主备切换,例如将主节点和从节点进行互换,保障实例的高可用性。此时,客户端可能会遇到...

功能概述

数据库发生故障后,无法在发生故障时定位到原因,可以通过智能压测功能,在克隆库上复现故障场景,定位故障原因。功能架构 智能压测的功能架构如下图所示:源数据库:将要进行大促、将要业务变更或者已经发生故障,需要进行流量捕获的数据...

主备方案介绍

主备容灾:当云数据库HBase实例因不预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

代码逻辑场景

受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障请求数的百分比,也代表每次请求发生故障的概率。填写小于或等于0,则表示100%发生故障。说明 仅填写百分比数字部分即可,即80%,填写80。请求过滤规则 否 无 通过脚本...

事务隔离

但是如果第一个更新事务提交(并且实际更新或删除该行,而不是只锁住它),则可重复读事务将回滚并带有如下消息 ERROR:could not serialize access due to concurrent update 因为一个可重复读事务无法修改或者锁住被其他在可重复读事务...

高可用和容灾设计

通过集群读地址访问备节点,在发生故障切换时,RDS的高可用系统会自动执行以下三个步骤:将一个备节点提升为主节点,该备节点从集群读地址中移除,同时清除该备节点上的读连接,此时集群读地址会发生闪断。故障主节点从集群读写...

如何管理故障

新增故障改进措施:故障复盘过程中,对当前故障进行总结复盘,设定故障的改进措施,避免类似故障重复发生,形成持续改进的闭环。每一个改进措施,需落地验收,确保改进措施对提升业务连续性、规避重复类似故障有帮助及效果。更新故障...

什么是物模型

物模型是阿里云物联网平台为产品定义的数据模型,用于描述产品的功能。...重要 多个自定义物模型文件内的 functionBlockName 和 functionBlockId 不可重复。相关文档 单个添加物模型 批量添加物模型 设备使用物模型通信 校验物模型数据

采集客户端数据的高可用方案

本文介绍日志服务从客户端采集数据的两个高可用方案,包括双方案和数据加工复制+写入切换方案。背景 在单集群环境下,日志服务存储采用三副本机制来保证数据的可靠性,即每份数据都有3个副本,副本按照一定的分布式存储算法保存在集群的...

故障复盘

故障复盘作为故障体系中的重要一环,整体复盘流程包括故障处理过程、改进分析、故障定责,基于包含标准化的复盘SOP、对应预防action推荐、问责管理机制,全面地回溯线上故障的发生,产出故障复盘报告和改进措施,避免故障重复发生。...

高压缩引擎(X-Engine)介绍

高压缩引擎(X-Engine)多节点架构用于保障集群的高可用,当系统发生故障时,读写的主节点和只读节点之间会自动进行故障切换(Failover),保证了服务可用性不低于99.99%。高压缩引擎(X-Engine)多节点架构图如下:产品优势 超大存储...

为RDS创建灾备实例

当RDS实例所在可用地域发生故障时,基于灾备实例快速恢复服务。应用场景 创建RDS灾备实例可以为主实例提供数据备份和灾难恢复保障,当主实例出现故障或不可用时,灾备实例将自动接管数据服务,保证业务的连续性和可用性。风险等级 默认...

故障管理

故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生。最佳实践 运维事件中心是阿里云提供的云上故障管理服务。制定故障应急响应流程机制。...

流水单据型业务场景多活实践

在北京单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复。说明 这里区别于传统的解决思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦。容灾切换...

读多少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

JVM注入动态脚本

受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障请求数的百分比,也代表每次请求发生故障的概率。填写小于或等于0,则表示100%发生故障。说明 仅填写百分比数字部分即可,即80%,填写80。请求过滤规则 否 无 通过脚本...

基于MSE云原生网关实现同城多活

在同城多活的场景下,能够确保对跨可用区的多个业务集群的请求实现高效负载均衡分配,在单个可用区内的业务集群发生故障时,在1秒内完成故障节点的自动摘除从而实现故障转移,有效的保障服务连续性和高可用性。容灾概述 目前云上容灾主要...

CLB结合全局流量管理实现跨地域负载均衡

在一个地域服务发生故障时,流量可以被转发到另一个地域的正常服务上,从而确保业务的连续性。全局流量管理简介 全局流量管理(Global Traffic Manager),简称GTM,是在 DNS 层面上实现的全球流量管理和负载均衡服务,可以帮助企业在短...

云监控告警

事件名称 事件所属类型 说明 IP流量告警 数据监控告警 您可以设置数据监控报警通知,及时获知指标数据发生的异常,并在发生故障时及时发现问题,缩短故障处理时间,以便尽快恢复业务。连接数告警 QPS告警 状态码告警 DDoS黑洞事件告警 事件...

部署高可用及共享存储Web服务

1个公网负载均衡CLB:基于对流量按需分发的能力,可以将流量分发到不同的后端服务器,消除系统中的单点故障,当某个服务器发生故障时,CLB会自动将请求分配到其他正常的服务器上,从而保证服务的连续性和稳定性。2个文件存储NAS:实现多...

事件管理

通过事件管理可以实现快速定位问题、提高解决效率、减少重复问题的发生频率、增强业务连续性、提高用户体验、规范企业工作流程。事件管理包括以下几点:事件的识别与记录:通过监控工具、日志分析、人工上报等方式发现事件,并将其记录。...

CreateTairInstance-创建Tair实例

6379 GlobalSecurityGroupIds string 否 实例的全局 IP 白名单模板,多个 IP 白名单模板请用英文逗号(,)分隔,不可重复。g-zsldxfiwjmti0kcm*ParamGroupId string 否 参数模板 ID,根据新创建的参数模板参数创建实例,不可重复。g-50...

CreateTairInstance-创建Tair实例

6379 GlobalSecurityGroupIds string 否 实例的全局 IP 白名单模板,多个 IP 白名单模板请用英文逗号(,)分隔,不可重复。g-zsldxfiwjmti0kcm*ParamGroupId string 否 参数模板 ID,根据新创建的参数模板参数创建实例,不可重复。g-50...

应用级别的数据完整性检查

对于使用读已提交事务的数据完整性强制业务规则非常困难,因为对每一个语句数据视图都在变化,并且如果一个冲突发生即使一个单一语句也不能把它自己限制到该语句的快照。虽然一个可重复读事务在其执行期间有一个稳定的数据视图,在使用 ...

发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

发现并处理Redis的大Key和热Key

在使用Redis的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能引发的问题及如何快速...

离线同步数据质量排查

以下介绍最常见的关系型数据库的出模式(不同数据源类型出模式不同):insert into 将数据使用insert into的SQL语句出至目标端,如果出数据和目标存储已有数据发生数据约束(主键冲突、唯一键约束、外键约束等),则来源数据会作为...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

事务与Read/Write Concern

发生写冲突时,事务外的操作既不会失败也不会返回报错给客户端,MongoDB内部会不断重试并且在 writeConflicts 计数器上加一,直到成功为止。从客户端的视角来看,操作并没有异常,只是请求耗时比较久。少量的冲突一般不会产生很大影响...

8.0.1和8.0.2版功能对比

支持 支持 多主集群(库表)一个数据库集群每个节点均可动态秒级扩缩容。支持 支持 Serverless Serverless数据库能够使得数据库集群资源随客户业务负载动态弹降,将客户从复杂的业务资源评估和运维工作中解放出来。支持 支持 可用性/...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 数据库审计 运维安全中心(堡垒机) 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用