高可用版

优势 可用性 采用经典高可用架构,主备之间通过复制(默认半同步)实现数据同步,一旦主库发生故障,将迅速检测并触发主备切换来保证可用性。备库故障对业务无影响,但会快速被检测到并触发备库自愈。可靠性 计算与存储分离,计算节点的...

单实例快速恢复

该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。节点恢复速度在一分钟左右,当表数量明显增加时,恢复时间会更长。Hologres...

基本概念

熔断 熔断可以使应用程序具备应对来自故障、潜在峰值和其他未知网络因素影响的能力,避免网络和服务调用故障级联发生,系统整体性能下降或者崩溃。ASM支持在流量策略中配置熔断功能,在网络访问超出熔断配置时能够拒绝请求。更多信息,请...

源为PolarDB-X的任务配置方案

配置 PolarDB分布式版 下多个RDS MySQL至目标库的DTS任务,如其中一个DTS任务发生故障,则不影响其他DTS任务的运行,且只需恢复发生故障的DTS任务即可。稳定性一般。仅配置一个以 PolarDB分布式版 为源的DTS任务,如该DTS任务发生故障,则...

源为PolarDB-X的任务配置方案

配置 PolarDB分布式版 下多个RDS MySQL至目标库的DTS任务,如其中一个DTS任务发生故障,则不影响其他DTS任务的运行,且只需恢复发生故障的DTS任务即可。稳定性一般。仅配置一个以 PolarDB分布式版 为源的DTS任务,如该DTS任务发生故障,则...

为什么实例会发生主备切换?

实例异常:阿里云检测到实例发生故障,无法正常使用时,系统会立即触发主备切换,及时恢复实例,缩短故障影响时长。宿主机下线或实例异常导致的主备切换会以站内信或邮件等形式通知到您,通知内容如下:【阿里云】尊敬的*:您的云数据库...

灾备规划

RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,RPO就要求越小。RPO越小,往往要求数据备份、复制频率更高,对生产环境、网络的压力也会越大,成本通常也越高。RTO:指故障发生后,期望...

自动/手动主备切换

当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请...

MSE Nacos风险管理

Nacos引擎系统自带定时...关闭接收通知之后,您将不再收到通知提醒,但仍然建议您按照风险 建议 进行操作,以免集群发生故障。说明 为避免通知过多,影响您的使用体验,MSE Nacos风险管理仅开放部分高风险通知功能,具体请以控制台页面为准。

通过异步复制功能实现容灾恢复

当您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制功能对主盘进行容灾恢复。本文主要介绍如何进行容灾恢复操作。前提条件 反向复制前,请确保源云盘(主盘)已经从对应的ECS实例上卸载,即主盘处于未挂载状态。具体...

云盒故障服务器维修流程

背景信息 当云盒内的服务器出现故障,需要更换和维修时,出于客户成本考虑,云盒内没有部署数据擦除服务,阿里云不在客户现场进行数据擦除。重要 在您购买云盒时同意的服务条款中已明确提出阿里云 不提供现场数据擦除服务,具体请参见 阿里...

部署方案

当主副本发生故障时,备副本将会升为主副本继续提供读写服务。对性能和多机房可用性有着更高要求的客户建议选择多机房部署方案。双机房部署 云数据库 OceanBase 双机房部署:将两个节点部署在两个可用区,其中一个节点作为主副本提供读写...

通过一致性复制组实现容灾恢复

当生产站点发生故障时,将开启读写权限的容灾站点中云盘挂载到临时创建的ECS实例上继续运行业务,直到生产站点故障修复完成。警告 故障切换功能会暂停异步复制功能,您需要确保您的生产站点发生故障时再使用故障切换功能,避免数据丢失。...

密钥轮转概述

如果第一次执行(突发性)密钥轮转是在响应具体事件的情形下,并且发生在运行中的系统上,则发生故障的概率会被无限放大。对数据形成逻辑上的隔离 轮转加密密钥使得轮转前后产生的密文数据形成事实上的隔离效果。特定密钥的安全事件可以被...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速...

云盘异步复制概述

启动云盘异步复制功能 通过异步复制功能实现容灾恢复 您创建并启动云盘异步复制关系后,如果主盘发生故障,您可以通过异步复制提供的故障切换以及反向复制功能对主盘进行容灾恢复。通过异步复制功能实现容灾恢复 删除云盘异步复制关系 创建...

备份和灾难恢复

阿里金融云可以支持同城双活/灾备、两地三中心等架构方式。1.同城双活 同城双活、灾备是阿里金融云的...故障切换回切:DNS将生产IP从原生产中心修改到灾备中心,实现跨Region的故障切换和服务恢复机制,主站发生故障时,由备站继续提供服务

故障演练

例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过将被演练的资源关闭,使资源处于人工构造的故障...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

一致性复制组概述

容灾站点 除了生产站点以外另外建立容灾站点,当生产站点发生故障时,容灾站点可以接管业务,实现业务不间断。恢复点目标(RPO)由于云盘异常可能丢失的数据量,以时间为单位,是异步复制功能的数据指标之一(一致性复制组功能的RPO默认为...

EasyCkpt:AI大模型高性能状态保存恢复

因此,在发生故障时,迫切需要一种以低成本的方法来保存最新的Checkpoint。这样在重新启动训练时就无需重复计算,从而减少时间和成本的浪费。功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的...

DATASOURCE:ECS:DedicatedHosts

无 ActionOnMaintenance String 当专有宿主机发生故障或者在线修复时,为其所宿实例设置迁移方案。取值:Migrate:迁移实例到其他物理机并重新启动实例。Stop:在当前专有宿主机上停止实例,确认无法修复专有宿主机后,迁移实例到其他物理...

配置推送优化概述

当该Sidecar资源对应的工作负载无依赖关系的服务发生改变,或与该服务相关的资源发生改变(例如虚拟服务等),都不会引起控制平面向该Sidecar的配置推送,这将大幅度提升了控制面向数据面的配置推送效率。关于应用Sidecar资源后的配置推送...

容灾恢复

集群中通常一个服务有多个服务提供者,其中部分服务提供者可能由于网络、配置、长时间 fullgc、线程池满、硬件故障等导致长连接还存活但是程序已经无法正常响应。单机故障剔除功能会将这部分异常的服务提供者进行降级,使客户端的请求更多...

产品高可用

CLB系统的高可用 负载均衡实例采用集群部署,可实现会话同步,以消除服务器单点故障,提升冗余,保证服务的稳定性。其中四层负载均衡通过LVS(Linux Virtual Server)+keepalived的方式实现,七层负载均衡通过Tengine(淘宝网发起的Web...

单节点架构

单节点架构只有一个副本,极端情况下如发生故障会造成30分钟左右服务不可用状态,建议您在生产环境中使用副本集架构或分片集群架构。问:单节点实例是否支持增量数据迁移与同步、按时间点创建实例恢复数据功能?答:不支持。云数据库...

高可用和容灾设计

可通过集群可读地址访问备节点,在发生故障切换时,RDS的高可用系统会自动执行以下三个步骤:将一个备节点提升为主节点,该备节点从集群可读地址中移除,同时清除该备节点上的可读连接,此时集群可读地址会发生闪断。故障主节点从集群读写...

使用基于访问日志分析自动推荐的Sidecar资源

当该Sidecar资源对应的工作负载无依赖关系的服务发生改变,或与该服务相关的资源发生改变(例如虚拟服务等),都不会引起控制平面向该Sidecar的配置推送。注意事项 如果您在设置启用访问日志采集时,设置日志服务Project为 使用默认,ASM会...

公共状态码

底层依赖服务发生未知错误 500 Operation.Failure.ApiInvoke.DependedServerReturnError 内部服务调用异常,底层依赖服务返回错误 500 Operation.Failure.ApiInvoke.DependedServerConfigError 内部服务调用异常,底层依赖服务配置错误 401...

HarmonyOS SDK快速入门

7 服务错误 服务故障。请 提工单 申请联系技术支持。8 数据被丢弃 一般是设备时间与服务器时间不同步导致,SDK会自动重新发送。9 与服务器时间不同步 设备时间与服务器时间不同步,SDK会自动修复该问题。10 SDK销毁时,缓存数据还没有发出 ...

服务等级协议

服务可用性将根据服务周期内每5分钟错误率之和除以服务周期内5分钟的总个数计算出每5分钟错误率的平均值,按照如下方式计算:服务可用性=(1-服务周期内每5分钟错误率总数/服务周期内5分钟总个数)x100%(注:服务周期内5分钟总个数=12x24x...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

什么是数据库自治服务DAS

解决方案 数据库自治服务DAS(Database Autonomy Service)是一种基于机器学习和专家经验实现数据库自感知、自修复、自优化、自运维及自安全的云服务,帮助用户消除数据库管理的复杂性及人工操作引发的服务故障,有效保障数据库服务的稳定...

实例健康诊断

实例健康诊断功能可以对 轻量应用服务器 实例的计算服务状态、网络服务、存储服务和配置管理等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。前提条件 轻量应用服务器 实例需处于 运行中 状态。操作场景 推荐您...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

服务协议

服务可用性将根据服务周期内每5分钟错误率之和除以服务周期内5分钟的总个数计算出每5分钟错误率的平均值,从而计算得出服务可用性,即:(注:服务周期内5分钟总个数=12*24*该服务周期的天数)2.2 服务可用性承诺 服务类型 服务可用性 通用...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

ECS灾备解决方案

为了保障企业业务稳定、IT系统功能正常以及数据安全,灾备解决方案变得越来越重要,并且正在迅速...即使其中一台ECS服务器故障或资源利用超负荷,服务仍然可以持续对外提供,从而保障业务的连续性和可用性。更多信息,请参见 部署高可用架构。

APM应用性能监控

通过阿里云托管的Elasticsearch应用性能监控APM(Application Performance Monitoring)服务,结合阿里云Elasticsearch,您可以搭建应用性能监控系统,实现系统的可观测性。本文介绍阿里云Elasticseasrch APM服务的概念、架构及功能,以及...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用高可用服务 Node.js 性能平台 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用