网络架构容灾

当地址池中地址发生故障时,HealthCheck模块会准确的检测到异常情况并与DNS交互(如下图中序号3所示),摘除故障地址(如下图中序号4所示),这样用户端会自动解析到可用的地址池(如下图中序号5所示)。并当故障地址恢复时,自动恢复至...

产品架构介绍

多活流量必须经过接入层,以便在故障发生时,通过接入层切换入口流量。比例分流:接入层支持按比例将流量分流到机房。特殊场景下,可以将机房流量切零,从而实现故障情况下的流量切换。精准路由:接入层支持根据HTTP请求Header/Cookie/...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

计算资源

即使其中一个节点发生故障或异常中断,其他节点仍然可以继续执行剩余的子任务,提高任务的容错性和可靠性。任务重复执行 由于各种原因导致计算任务被多次执行的情况,如重复操作、消息重复、调度重复等原因。常见的容错策略如下:去重:...

AIOps 解决方案专家服务内容说明

根据智能AI算法和阿里多年积累的AIOps经验,在故障发生后,提供自动化解决方案。在方案设计中我们提供包括时序预测和根因分析、历史数据预测的3大类算法场景的设计,更多具体算法详见《10.1算法列表》《智能故障发现设计方案》3 定制化业务...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

故障演练

例如,模拟在高速通道冗余链路中的一条链路发生故障时,网络流量会自动切换至其他冗余链路的场景。借助该工具,您可以测试和验证您与阿里云组建的混合云组网的可靠性。重要 故障演练会通过将被演练的资源关闭,使资源处于人工构造的故障...

配置健康检查

在云企业网和本地数据中心存在冗余路由的场景下,健康检查探测到物理专线故障后支持自动切换到可用路由,保障流量传输不中断。背景信息 工作原理 在您为VBR实例配置健康检查后,阿里云默认每隔2秒从每个健康检查源IP地址向本地数据中心的...

产品价格

实例主机单节点价格:说明 对于生产系统,需配置多节点,并设置数据多副本,且节点数量需大于等于数据副本数量,这样主机节点和数据副本才有冗余,当发生主机节点或存储故障时,才具备故障切换能力。产品实际价格,请以产品购买页为准。...

混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...

开启边界路由器(VBR)健康检查功能

开启边界路由器(VBR)的健康检查功能,确保及时发现出现故障的物理专线,也可修改VBR的健康检查配置。接口说明 您可以通过为 VBR 实例设置健康检查,监测本地数据中心与阿里云之间物理专线的连接状况,以便及时发现问题。在使用健康检查...

最佳实践

存储服务数据容灾最佳实践 冗余存储 阿里云对象存储OSS提供本地冗余存储和同城冗余存储两种存储冗余类型,覆盖从单可用区到多可用区的数据冗余机制,以保证数据的持久性和可用性。其中本地冗余存储采用单可用区(AZ)内的数据冗余存储机制...

网络资源

常使用的容错策略如下:设备冗余:使用冗余的网络设备,如多个交换机、路由器等,通过冗余设备提供备用路径,当主路径出现闪断时,能够自动切换到备用路径,保持网络连接的稳定性。心跳检测:实施心跳检测机制,定期检测网络连接的状态和...

错误处理

通过本文您可以了解智能媒体管理请求发生错误时的错误格式、通用错误码和常见错误及处理。错误格式 如果在处理请求时发生异常,则智能媒体管理会返回如下格式的错误信息。{"RequestId":"D18E94DF-1D00-0B75-811E-*","HostId":"imm....

RPC 常见问题

在客户端和服务端同时部署 tcpdump 进行循环抓包,当问题发生后分析网络包。在客户端和服务端运行 ping 观察是否存在网络延时。确认是否因其他外部因素影响服务器性能,如任务调度、批处理,或者与宿主机上其他虚拟机、容器发生资源争抢。...

备份Oracle

为避免灾难、硬件故障、数据丢失、损坏和意外删除事故发生,建议您通过 云备份 及时对Oracle数据库进行备份。云备份 支持备份云服务器ECS实例或本地服务器中部署的Oracle数据库,将数据备份至云端。您可以随时根据时间点恢复数据库至源数据...

备份MySQL

为避免灾难、硬件故障、数据丢失、损坏和意外删除事故发生,建议您通过 云备份 及时对MySQL数据库进行备份。云备份 支持备份云服务器ECS实例或本地服务器中部署的MySQL数据库,将数据备份至云端。您可以随时根据时间点恢复数据库至源数据库...

使用报警服务

查看目标报警规则的报警历史 您可以查看指定报警规则中的所有故障资源的报警详情和报警图表,及时定位并处理资源故障。使用阈值报警回调 云监控除了 电话、短信、邮件和WebHook的报警通知方式外,还可以使用报警回调方式,实现将云监控发送...

SQL优化技术

安全检查:为降低风险,变更仅发生在运维窗口期,同时我们会进行主备延迟、实例负载和表空间判断,各指标都在安全范围内时才进行变更。灰度的变更策略:如大量分库分表场景,为降低风险,自动生成灰度计划,分批变更。变更过程中,系统会...

DeviceLinkDown

DeviceLinkDown事件提示您线下机构侧动态路由邻居发生故障或者静态接入链路发生故障。告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换...

健康检查

警告 关闭健康检查后,ALB 不再检查后端服务器,一旦某台后端服务器发生故障,则无法实现访问流量自动切换至其他正常的后端服务器。如延长健康检查的间隔时间,后端服务器出现故障时,ALB 发现故障后端服务器的时间也会变长。方式二:通过...

如何处理健康检查导致的大量日志

风险说明 HTTP/HTTPS模式下关闭健康检查后,负载均衡不再检查后端服务器,一旦某台后端服务器发生故障,则无法实现访问流量自动切换至其它正常的后端服务器。操作步骤 登录 传统型负载均衡CLB控制台。在 实例管理 页面中找到对应的CLB实例...

FAQs

GTM是集成了DNS的智能解析功能、云监控的应用服务监控功能,为客户输出不同网络或地区用户访问实现就近接入、应用服务运行状态的健康检查故障自动切换等能力。GTM 是现有云解析DNS中全局负载均衡(GSLB)的升级和替代产品,GTM比GSLB支持...

创建和管理服务器组

警告 关闭健康检查后,NLB 不再检查后端服务器,一旦某台后端服务器发生故障,则无法实现访问流量自动切换至其它正常的后端服务器。若延长健康检查的间隔时间,后端服务器出现故障时,NLB 发现故障后端服务器的时间也会变长。移除后端...

创建和管理服务器组

健康检查配置 开启健康检查后您可以单击 健康检查配置 右侧的 编辑 展开更多配置。选择并加载健康检查 选择并加载一个健康检查。说明 您可以创建健康检查,不与服务器组及监听关联,方便下次复用。一个后端服务器只支持配置一个健康检查。...

常见问题-FAQ

GTM是集成了DNS的智能解析功能、云监控的应用服务监控功能,为客户输出不同网络或地区用户访问实现就近接入、应用服务运行状态的健康检查故障自动切换等能力。全局流量管理(GTM)的CNAME接入域名是否能直接通过URL访问?答:不可以使用 ...

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。背景信息 云盘恢复...

GTM实现跨网访问加速与故障切换

相关概念 名词 概念 GTM 全局流量管理(Global Traffic Manager),简称GTM,支持智能解析、健康检查故障隔离、故障切换,可帮助企业快速构建同城双中心、两地三中心的容灾架构。智能解析 是指根据用户请求源地址(运营商、地域等),...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件 已创建云盘备份。更多信息,请参见 创建云...

产品原理

全局流量管理(GTM)支持用户就近接入、高并发负载均衡、健康检查故障切换,可以帮助企业在短时间内构建同城多活与异地灾备的容灾架构。同时GTM支持管理阿里云和非阿里云IP地址,能够方便企业客户快速构建混合云应用的灾备。GTM属于DNS...

边界路由器实例诊断

VBR冗余关系检查检查云企业网的转发路由器TR(Transit Router)到VBR或者专有网络VPC(Virtual Private Cloud)到VBR的部分或全部网段是否未配置冗余线路。物理端口收发光异常:检查阿里侧物理端口是否能正常收到客户IDC侧发来的光信号。...

故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

高可用和容灾设计

可通过集群可读地址访问备节点,在发生故障切换时,RDS的高可用系统会自动执行以下三个步骤:将一个备节点提升为主节点,该备节点从集群可读地址中移除,同时清除该备节点上的可读连接,此时集群可读地址会发生闪断。故障主节点从集群读写...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

GTM如何实现智能解析按地域划分

场景说明 企业应用服务一般会有多个IP,且多个IP地址可能分布于不同国家或地区、不同运营商、不同厂商的数据中心中,在这种情况下,云解析DNS的智能...通过设置服务IP地址的ACL策略,使得健康检查失败,测试GTM健康检查故障自动切换功能。

Tablestore HBase Client

可靠性 数据自动多重冗余备份,故障迁移自动完成,可用性不低于99.9%,数据可靠性达99.99999999%。需要自行保障集群的可用性。可扩展性 表格存储的自动负载均衡机制支持单表PB级数据,即使百万并发也无需任何人工扩容。集群利用率到一定...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云安全中心 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用