设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

故障协同处理(基于钉钉)

原因检查:展示故障发生原因故障恢复方式等故障详情。分析详情:展示监控来源和故障相关人等故障详情。改进措施:逐条填写改进措施,至少新增一条改进措施。(4)故障动态 H5界面:故障动态和PC端故障动态保持一致,PC端和移动端对于故障...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

DeviceLinkDown

告警信息 事件名称 事件级别 状态码 状态描述 DeviceLinkDown CRITICAL linkdown Device Link State Change 可能原因 用户侧交换机设备故障。用户侧交换机配置故障。用户侧交换机和设备的连线问题。处理方法 检查用户侧交换机。...

创建系统事件报警规则

事件类型 事件名称 详情 维护 接入点切换 AccessGatewayFailover 设备发生主备切换 DeviceSwitched 设备WAN链路切换 DeviceWanLinkSwitched 异常 设备被攻击 DeviceHacked 设备链路故障 DeviceLinkDown 设备WAN链路恢复 DeviceWanLinkUp ...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

故障处理流程

本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下流程排查故障:用户收到告警信息或者发现应用不可用。登录智能接入网关控制台,查看设备状态。访问其他公共网站,...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

API概览

ListProblemSubtotals 故障小计列表 RecoverProblem 故障恢复 ReplayProblem 故障复盘 RevokeProblemRecovery 故障撤销恢复 UpdateProblemNotice 更新故障通告 CreateProblemMeasure 创建故障改进措施 DeleteProblemMeasure 删除故障改进...

步骤七:故障切换

反向保护-故障恢复 生产站点故障恢复后,您需要将容灾站点数据恢复到生产站点,完成故障恢复。在保护组状态为 反向复制中 并且 实际RPO 符合预期的情况下,您就可以进行故障恢复操作。请参考以下步骤进行反向保护故障恢复操作。登录 云备份...

步骤七:故障切换

反向保护-故障恢复 生产站点故障恢复后,您需要将容灾站点数据恢复到生产站点,完成故障恢复。在保护组状态为 反向复制中 并且 实际RPO 符合预期的情况下,您就可以进行故障恢复操作。请参考以下步骤进行反向保护故障恢复操作。登录 混合...

功能概览

故障恢复 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再启动恢复,服务不可用时间会大于“立即切换”的时间,主要用在生产站点正常工作等场景...

功能概览

故障恢复 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再启动恢复,服务不可用时间会大于“立即切换”的时间,主要用在生产站点正常工作等场景...

DeviceSwitched

告警信息 事件名称 事件级别 状态码 状态描述 DeviceSwitched CRITICAL switched Device Role Changed 可能原因 智能接入网关主设备故障。智能接入网关主设备动态路由邻居故障。处理方法 无需处理。icmsDocProps={'productMethod':'created...

步骤七:故障切换

反向保护-故障恢复 生产站点故障恢复后,您需要将容灾站点数据恢复到生产站点,完成故障恢复。在保护组状态为 反向复制中 并且 实际RPO 符合预期的情况下,您就可以进行故障恢复操作。请参考以下步骤进行反向保护故障恢复操作。登录 云备份...

步骤七:故障切换

反向保护-故障恢复 生产站点故障恢复后,您需要将容灾站点数据恢复到生产站点,完成故障恢复。在保护组状态为 反向复制中 并且 实际RPO 符合预期的情况下,您就可以进行故障恢复操作。请参考以下步骤进行反向保护故障恢复操作。登录 混合...

什么是应用高可用服务AHAS

多活容灾 多活容灾MSHA(Multi-Site High Availability),是在阿⾥巴巴电商业务环境演进出来的多活容灾架构解决⽅案,可以将业务恢复故障恢复解耦,有基于灵活的规则调度、跨域跨云管控、数据保护等能力,保障故障场景下的业务快速恢复...

诊断网页加载过慢的问题

慢加载详情 页面顶部的 页面信息 区域展示了本次访问的客户端IP地址、浏览器、操作系统等信息,帮助您确认故障原因。慢加载详情 页面的 页面资源加载瀑布图 区域展示了页面静态资源加载的瀑布图,帮助您快速定位资源加载的性能瓶颈。慢加载...

回切至本地VMware

本文主要介绍如何利用阿里云连续复制型容灾(CDR)服务,在本地虚拟机出现问题后把云上恢复出来的ECS回切到云下VMware环境中。前提条件 已部署CDR网关。更多信息,请参见 步骤三:部署CDR网关。已在被保护的Windows服务器上安装阿里云复制...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

功能介绍

背景信息 在物联网边缘计算业务中,由边缘一体机分析的告警事件、设备故障等消息,需要及时发送通知给特定的人员处理,避免出现安全风险或者业务停滞等情况。对此场景,物联网边缘计算研发了 智慧立方 钉钉小程序,您只需要配置小程序,...

步骤五:应用容灾

当被保护的服务器完成阿里云复制服务(AReS)安装并重启后,您就可以对受保护的服务器启动、停止容灾复制、故障切换、容灾演练等一系列的应用容灾操作。前提条件 已安装阿里云复制服务。更多信息,请参见 步骤四:安装阿里云复制服务。操作...

云盒计算资源配置最佳实践

由于这些冗余资源对于用户来说是可见资源,随时可以被用来创建ECS实例或其他云产品实例,因此该方式对于日常业务使用有一定的灵活性,但无法保证在硬件设备故障期间,一定存在可用的备机资源。购买 SLA增值服务包,为计算资源通过SLA保证。...

产品优势

自动化故障诊断和标准化应急预案快速定位并恢复故障,减少因故障引起的业务中断时间。故障演练主动检验应用高可用能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新 阿里云、蚂蚁技术风险团队基于域内、...

执行恢复出厂设置任务

调用该接口恢复设备的出厂设置,删除设备历史数据,并通知设备端,同时会清除云端设备快照数据。该接口调用会返回一个恢复出厂设置任务的ID,任务后台异步执行,通过该任务ID可查询任务的执行状态(配合“查询恢复出厂设置任务的执行状态”...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾...故障恢复完成后,您可以在单击 故障切换/故障恢复信息 下的链接,检查恢复后的ECS实例情况。更多参考 IDC容灾到云 阿里云上跨可用区容灾

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复故障恢复解耦)。容灾切换...

硬件功能说明

当主设备故障时,用备设备替换,保证业务的高可用性。安全 VPN加密 加密连接。访问控制(ACL)允许或者拒绝访问控制规则内IP对公网或私网的访问。说明 不支持公网访问控制。设备离线锁定 防盗,长期离线锁定。运维 远程重启 通过控制台远程...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复故障恢复解耦)。容灾切换预期:将...

什么是消息演练

随着应用规模的扩大,系统变得越来越复杂,不可避免地会走向分布式化。各种中间组件会相继被引入系统,其中分布式消息服务更是系统中必不可少的一...需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

应用场景

设备维护成本降低 您可以使用工业大脑平台,预测设备故障并进行维护,具体应用场景如下。设备行业:企业使用物联网与算法模型技术提前预测风机故障。通过温度传感器对整个风机的温度测点进行实时监控,并对海量温度数据进行深度学习,构建...

基本概念

概念 描述 故障转移(Fail Over)即容灾恢复,指您的 IDC 应用出现故障时,在阿里云上恢复应用的过程。故障恢复(Fail Back)当您的 IDC 内的环境恢复以后,将应用数据迁回自有 IDC 恢复应用运行的过程。RPO Recovery Point Objective(数据...

蓝牙Mesh本地定时统一协议

支持Mesh本地定时统一协议设备区分 通过设备Device UUID FeatureFlag2标识位bit5位置1,来表示设备支持Mesh本地定时统一协议,完整的Mesh设备UUID格式定义说明请参见 Mesh设备UUID格式定义说明。Mesh设备对时协议 AttrType&Opcode Mesh设备...

监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

混合云容灾服务的审计事件

Failback 故障恢复。ForcedFailover 故障切换。OpenService 开通服务。RegisterServers 添加受保护服务器。ReversedDisableReplication 停止反向复制。ReversedEnableReplication 启动反向复制。ReversedRegisterServer 反向注册。...

应用容灾

同城应用多活的架构如下图所示:同城应用多活对应用系统的代码侵入较小,基于灵活的流量调度和单元格间的流量路由,能做到故障场景下的业务快速恢复,实现业务恢复故障恢复的解耦。异地场景的应用多活 同城近距离的容灾建设难以抵御地域...

响应云盒维修事件

当云盒中的硬件设备发生故障需要更换时,阿里云会向您发送云盒维修事件通知,您需要授权同意阿里云上门更换并维修硬件设备。本文为您介绍云盒维修相关的流程,以及如何响应云盒维修事件。背景信息 配置云盒计算资源时,您需要配置一定的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 物联网无线连接服务 物联网平台 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用