GTM如何实现异地容灾

概述 方案介绍 异地容灾是指应用服务部署在不同地域时,当其中一地出现故障时,全局流量管理(简称GTM)可以将出现故障地域的用户访问流量,调度至异地灾备中心,保障用户访问连续不间断。本文将以两地三中心灾备架构为读者讲解异地灾备的...

产品简介

一站式管理、多端协同,帮助企业实现更实时的数字化管理、更快的故障响应、更短的故障恢复时长、更连续的业务运营体验。产品架构 功能概况 您可以在运维事件中心获得以下功能的入口:模块 能力概述 功能描述 服务 管理企业的各个服务...

Redis内存碎片

操作系统的剩余空间总量足够,但申请一块N字节连续地址的空间时,剩余内存空间中没有大小为N字节的连续空间,那么这些剩余内存空间中,小于N字节的连续内存空间就是内存碎片。若数据库实例为阿里云数据库Redis实例,内存碎片带来的膨胀不会...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

云数据库RDS MySQL版数据库自增列不连续问题处理

问题描述 使用云数据库RDS MySQL版数据库时,发现自增列不连续。问题原因 由于数据库的列存在约束条件,插入数据失败,导致自增列不连续。解决办法 关于自增列问题处理详情请参考MySQL 官方文档。使用方法 云数据库RDS MySQL版

演练原子操作

故障演练原子操作指最小单元的故障。在 故障演练>演练原子操作 页面中,展示了平台上可用于故障演练的原子服务。可根据原子服务状态分类,查看当前环境中的故障原子操作信息,包括原子操作名称、操作编码、添加时间、状态、被引用次数等...

共享内存通信(SMC)常见问题

问题原因及解决方案 由于某些原因,导致应用创建的SMC连接回退到TCP,此时无法使用RDMA加速网络通信。详细的回退排查和解决方法,请参见 启用SMC后回退无法使用RDMA加速。应用的网络通信开销在整个应用中占比较。例如应用是倾向于CPU密集...

连接保持

PolarDB 新增支持连接保持功能,避免由于一些运维操作(如升级配置、主备切换或升级版本等)或非运维操作故障(如节点所在服务器故障)导致的连接闪断或新建连接短暂失败的问题,进一步提高 PolarDB 的高可用性。前提条件 PolarDB 数据库...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

如何通过 mPaaS 框架解决 App 线上问题

发布程序更新如果故障发生在程序中,只需要重新修改程序,重新发布。和 H5 离线包类似,也可以快速触达用户。热修复不到万不得已一般不建议通过热修复进行线上问题修复。这是一个原生 Native 兜底的手段,通过热修复补丁包的下发去...

AIOps 解决方案专家服务内容说明

智能故障发现解决方案 基于调研与评估的结果,为客户设计智能故障发现解决方案,包含:多账号统一监控数据接入,并根据应用分组为客户设计AI算法能力用于实时故障发现,并根据分析结果智能定位根因,提供实时异常检测的稳定性方案,保障...

发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

发现并处理Redis的大Key和热Key

在使用Redis的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能引发的问题及如何快速...

动态与公告

功能/版本 历史版本GTM标准版 新版GTM标准版 新版GTM旗舰版 全网故障恢复时间=故障切换时间+全网生效时间 在健康检查间隔设置为1分钟,TTL60秒,连续失败次数3次的配置下,GTM能在4分钟左右准确发现故障并切换,故障切换后理论上60秒左右...

变更管理

变更管理分为组织变更与变更支持:组织变更:确保组织中的变更顺利实施,并通过管理变更的人为方面来实现业务连续稳定运行的实践。变更支持:正确地评估变更风险、对变更进行合理授权、管理变更时间表,通过增加成功变更次数来实现业务的...

主备方案介绍

主备容灾:当云数据库HBase实例因不可预料的原因(例如设备故障、机房断电断网等)发生故障,容灾机制可用于保障数据的一致性和业务可用性。功能优势 主备双活:请求低毛刺。故障自动容错。资源利用率高。主备容灾:支持云数据库HBase、EMR...

产品价格

版本配置 功能项 标准版 旗舰版 全网故障恢复时间=故障切换时间+全网生效时间 在健康检查间隔设置为1分钟,TTL60秒,连续失败次数3次的配置下,GTM能在4分钟左右准确发现故障并切换,故障切换后理论上60秒左右可以全网生效,但实际情况取决...

租户内存使用率告警

规则信息 告警项 指标类型 监控指标名 默认阈值 持续时间(连续触发告警周期数)检测周期 告警级别 租户内存使用率告警 单指标 租户/租户内存使用率 85 3 1 分钟 Warn 对系统的影响 租户内存不够时,可能会导致 SQL 执行变慢或者写入失败。...

故障基础数据管理

故障场景等级定义 日常运营中,除用户方环境或自身操作引起的问题外,无论什么原因导致的服务中断、服务品质下降或用户服务体验下降的现象,都称为故障。对故障影响程度的划分就是故障等级定义。定义故障等级是为了指定故障等级定义作为各...

健康检查最佳实践

成功阈值:探针在失败后,被视为成功的最小连续成功数。Liveness必须设置为1。失败阈值:判定总体失败的连续失败数。推荐配置(快速设置版)参数 说明 Liveness 使用TCP方式,延迟时间尽量贴近应用启动时间,成功阈值为1,失败阈值为3。...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

FAQs

重要 故障发现时间:GTM可保障故障发现时间,目前默认的健康检查配置可以在故障的4分钟左右准确发现故障并切换;DNS切换同步时间:GTM无法保障全网的最终生效时间,因受限于全国各地运营商的TTL缓存设置以及网络环境不同,所以全网生效时间...

服务协议

赔偿范围不包括以下原因所导致的请求失败或服务不可用:(1)阿里云预先通知客户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)客户的应用程序受到...

运维服务内容说明

1.服务概述 阿里云运维服务(Alibaba Cloud Managed Services),基于阿里巴巴数字化运维解决方案,提供专属运维服务专家,帮助企业客户做好云上运维管理,降低运维开销和风险,提升运维效率和业务连续性,增强系统安全性和合规性,助力...

什么是混合云容灾服务

可以为本地数据中心以及阿里云上面的企业关键业务提供低至秒级RPO和分钟级RTO的容灾服务,有效保障数据安全和业务连续性。解决的核心问题 混合云容灾解决的核心问题如下:应用级容灾保障业务持续性(Business Continuity):在数据中心故障...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...

多集群联邦发布容灾

容灾的主要目的是当自然或人为的原因导致生产系统发生灾难时,能够尽可能地保证业务的连续性。机房灾难感知 为实现容灾场景下 LHC 多集群的正常发布,可通过以下方式来判断机房灾难。集群状态:运维侧视角下,机房灾难的直接体现就是集群不...

灾备规划

需求分析 数据保护和业务连续性对数据中心的意义重大,关键应用的故障或数据丢失会对您的业务造成重大损失。混合云容灾服务提供了两个层次的能力来保护数据,并确保业务连续性。异地备份 服务器镜像和数据备份后会直接上传至阿里云灾备库,...

单波段拉伸

分段映射->数值分段 连续映射->数值连续 分类映射->名词分类 Gamma校正:对栅格数据进行图像亮度失真校正,范围为0.1~10。说明 Gamma校正是一种用于调整图像亮度和对比度的非线性变换技术,可以纠正由于显示设备的不一致性而导致的图像亮度...

租户 CPU 负载告警

规则信息 告警项 指标类型 监控指标名 默认阈值 持续时间(连续触发告警周期数)检测周期 告警级别 租户 CPU 负载告警 单指标 租户/CPU 使用率 90 15 1 分钟 Warn 对系统的影响 CPU 过载会导致 TPS/QPS 时延过大或者服务超时,从而影响正常...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

概述

再者云计算平台会提供冗余存储和备份能力,避免系统因为硬件故障或其他原因导致的停机或数据丢失。这种备份机制可以提高系统的可靠性。责任共担模型 阿里云平台提供高可用的基础设施,并提供应用稳定性相关工具体系。用户可以基于阿里云...

自动或手动主备切换

当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...

云盘异步复制容灾常见问题

相比连续复制型容灾(CDR),云盘异步复制技术与其差异如下表格所示:对比项 连续复制型容灾 云盘异步复制容灾 主要支持场景 适用 单虚机 容灾。适用不介意系统侵入的客户。适用 虚机组一致性 容灾。适用于不希望有系统侵入的客户。系统...

SA混合云存储阵列

当控制器故障时,支持在线故障切换,业务连续性不受影响。阿里云混合云存储阵列将云存储的高性价比和可扩展性与本地数据中心架构相结合,帮助客户轻松实现数据在本地数据中心和公共云之间的无缝流动。产品规格 阿里云 SA混合云存储阵列 ...

围绕混沌工程的平台实践

本文主要介绍AHAS Chaos是如何围绕混沌工程来打造故障演练服务,您可以了解到混沌工程的基本知识和AHAS Chaos的优势。混沌工程和故障演练 首先您需要了解混沌工程和故障演练的关系。以下是混沌工程官方定义:混沌工程是在分布式系统上进行...

查询并配置计划内事件

云原生多模数据库 Lindorm 的运维事件(例如版本升级)除了通过 短信、语音、邮件或站内信通知之外,还会在控制台进行通知。您可以在计划内事件中,查看具体的事件类型、地域、流程、注意事项和系统默认切换时间等信息,也可以手动修改...

归档存储服务等级协议

不可用时间:归档存储所提供的服务在连续的5分钟或更长时间不可使用方计为不可用时间,不可使用的服务时间低于5分钟的,不计入不可用时间。归档存储不可用时间不包括日常系统维护时间、由用户原因、第三方原因或不可抗力导致的不可用时间。...

回切至本地物理机

本文主要介绍如何利用阿里云连续复制型容灾(CDR)服务,在本地虚拟机出现问题后把云上恢复出来的ECS回切到用户本地数据中心的物理服务器上。前提条件 服务器已进入实时复制状态。更多信息,请参见 启动复制。背景信息 目前阿里云的混合...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库备份 DBS 数据库自治服务 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用