跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 面板,选择 恢复...

EMR Kafka磁盘故障运维

当磁盘发生故障时,应及时完成相关故障的处理,及时恢复集群的容错能力。磁盘运维概述 本文从磁盘监控和磁盘故障恢复角度来介绍磁盘运维策略。磁盘监控 以下内容从Kafka服务层面以及ECS系统层面来简单了解一下磁盘的监控策略。Kafka服务...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

故障演练

确保操作人员熟悉容灾恢复流程,确保在生成站点真正发生故障时,操作人员可以顺畅地进行容灾切换。前提条件 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。如何创建跨可用区和跨地域容灾的保护组,请参见 跨可用区容灾...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:登录 混合云容灾管理控制台。单击 切换到连续复制型容灾。在 概览 页面,单击目标容灾站点对。在容灾中心页面,单击 受...

通过物理专线实现本地IDC与云上VPC互通

健康检查探测到物理专线链路故障时,如果云企业网实例中存在冗余的路由,健康检查则会立刻触发路由切换使用可用链路。若您关闭本功能,健康检查仅执行链路探测功能。若健康检查探测到物理专线链路故障,则不会触发路由切换。警告 若您选择...

故障协同处理(基于钉钉)

时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障发现、故障通告、业务响应、初因定位、恢复执行和故障恢复。节点记录和PC端故障时间线保持一致。复盘 按钮:故障恢复后,需进行故障...

如何管理故障

故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...

故障应急协同

故障应急协同群 故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...

IPsec-VPN联合物理专线实现主备链路上云(绑定VPN网关...

本文为您介绍如何组合使用IPsec-VPN和物理专线,实现本地数据中心IDC(Internet Data Center)通过主备链路上云并和云上专有网络VPC(Virtual Private Cloud)互通。场景说明 本文以下图场景为例,为您介绍IPsec-VPN联合物理专线实现主备链...

配置和管理健康检查

如果某条物理专线上连续8个ping报文都无响应,则说明该物理专线链路故障。警告 被探测地址必须保证能正常回应ping的探测,不能对ping探测进行限速或者禁止ping探测。通过VBR上连方式配置健康检查时,您可以通过以下方式配置:通过VBR上连...

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

设备和交换机之间的链路故障

本文介绍SAG-1000设备发生设备和交换机之间链路故障的原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...

ConnectionDisconnect

ConnectionDisconnect事件提示您智能接入网关的主备IPsec链路都出现故障。告警信息 事件名称 事件级别 状态码 状态描述 ConnectionDisconnect CRITICAL disconnect Connection Disconnected 可能原因 主备IPsec链路均出现网络故障。处理...

企业财务经营管理解决方案

预算管理支持“费用预算”、“使用率与覆盖率预算”两种预算类型:费用预算:您可以按照财务单元、账号、产品等维度,设置以年、季、月为周期的消费金额预算和对应的预警阈值。当实际消费金额或预测金额达到您设置的预警阈值时,发送预警...

专属解决方案

而预实分析则是在事前、事中和事后预算和实际发生对比分析的基础上增加了预测视角。此外,将云的预算管理纳入进来之后,企业的全面预算才算是补齐了最后一块短板,全面预算才有了切实的管理意义。从我们的实践来看,数字化云上预算管理的...

产品优势

服务部署后,计算巢提供阿里云自助服务和全链路检测能力,实现一键排查、智能故障检测,提升业务稳定性。计算巢为用户提供了丰富的软件选择,覆盖常见的软件类型,包括:数据库等基础软件,CRM等应用软件,以及制造、医疗等行业软件。已经...

产品优势

链路级容灾 每个网关终端双链路密封接入,自动探测最优链路故障时主动实时切换。安全 混合云私网加密互连,Internet传输过程中加密认证。数据加密 使用IKE和IPsec协议对传输数据进行加密,保证数据安全。防重放 认证数据来源,防止重放...

强弱依赖治理最佳实践

通过以上业务依赖的预判可以得出以下结论:前端对商品推荐服务预判为弱依赖,表示当推荐服务发生故障时前端正常访问不应该受阻。在购物链路中,商品服务product对商品数据库product-mysql预判为强依赖。表示如果扣减库存失败,则应该阻断下...

创建系统事件报警规则

背景信息 智能接入网关支持以下系统事件:事件类型 事件名称 详情 维护 接入点切换 AccessGatewayFailover 设备发生主备切换 DeviceSwitched 设备WAN链路切换 DeviceWanLinkSwitched 异常 设备被攻击 DeviceHacked 设备链路故障 ...

硬件功能说明

智能接入网关提供两种...链路级监控 设备上线提示信息。阈值报警 实现监控项超过设定阈值后自动发送报警通知的功能。健康检查 说明 健康检查功能默认不开放,您可以向客户经理申请开通健康检查功能。支持通过配置健康检查探测链路的连通性。

产品优势

安全可靠 DTS底层为服务集群,如果集群内任何一个节点宕机或发生故障,控制中心都能够将这个节点上的所有任务快速切换到其他节点上,链路稳定性高。DTS内部对部分传输链路提供7×24小时的数据准确性校验,快速发现并纠正传输数据,保障传输...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

产品简介

报警、事件、故障链路数据在线化管理,实现业务运营的可视化、在线化、智能化管理。升级策略 针对所有事件,按照不同优先级、影响程度,制定系列不同时间、通知策略的规则合集。通过灵活自定义的升级通知策略,帮助用户及时关注并解决...

畅捷通借助EDAS实现的微服务治理能力提升之路

在此之前,由于畅捷通的SaaS产品所涉及到的业务链路极为复杂,当用户反馈系统Bug或者性能存在问题之后,IT团队需要耗费非常长的时间在错综复杂的链路之间定位故障源以及性能瓶颈。在接入ARMS之后,通过全链路信息排查以及应用实时诊断等...

查看应用拓扑图

指标说明 RMS 分布式链路使用不同的拓扑图标颜色进行标识,蓝色表示应用健康、黄色表示应用出现异常情况、红色表示应用出现错误,方便用户迅速聚焦到非健康应用,快速定位异常链路,完成故障排查。此外,将鼠标悬在代表应用的节点或者节点...

直播公告(2020~2022年)

微服务体系在阿里巴巴内部广泛使用,历经10多年双十一考验,甚至经历多次断网、节点全挂、存储不可用等各种高危故障,由此沉淀出了许多宝贵经验,阿里云微服务引擎 MSE 生长在此基础之上,默认具备许多项高可用能力。服务发现与配置管理高...

金融行业最佳实践

金融两地三中心 业务挑战:金融源站往往采用两地三中心的架构,当某个源站发生故障时,需要快速地将业务切换到其他可用源站,保障业务的连续性和稳定性。方案优势:阿里云DCDN提供多源负载均衡能力,实现多源异地灾备,可以按照主备、权重...
共有193条 < 1 2 3 4 ... 193 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 可观测链路 OpenTelemetry 版 应用实时监控服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用