如何管理故障

可以对故障的最新进展、故障影响面(影响服务)、舆情反馈、Timeline时间线进行在线化管理、编辑,并同步更新通告及故障状态,确保故障关键进展及时通知至相关人员。改进分析 改进分析用于记录管理故障恢复后的故障复盘。当故障处于复盘中/...

链路状态

发生故障时,及时进行切换。操作步骤 登录 智能接入网关控制台。在 智能接入网关 页面,单击目标实例ID。在智能接入网关实例详情页面,单击 高可用配置,可查看链路状态。绿灯:表示链路正常。红灯:表示链路故障。icmsDocProps={'...

主备方案介绍

灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...

设计方案

风险预测:风险预测是指在发生故障前,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。在故障应急响应中,风险预测可以作为重要参考,帮助快速识别问题的根本原因,提高故障处理效率和精度。故障响应 在发现故障...

流水单据型业务场景多活实践

在北京单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复。说明 这里区别于传统的解决思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦。容灾切换...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

强弱依赖治理最佳实践

通过以上业务依赖的预判可以得出以下结论:前端对商品推荐服务预判为弱依赖,表示当推荐服务发生故障时前端正常访问不应该受阻。在购物链路中,商品服务product对商品数据库product-mysql预判为强依赖。表示如果扣减库存失败,则应该阻断下...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

配置设备级高可用

当主网关设备发生故障时,HA机制能够从备份的网关设备中选举一台设备成为新的主网关设备,用来承担数据流量,从而保障网络的可靠通信。动态HA功能无需配置虚IP地址,系统会主动帮您探测设备状态,在主网关设备故障时,自动帮您切换流量。...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。容灾演练操作步骤如下:在左侧导航栏,选择 连续复制型容灾>云上容灾。在页面右上角,选择容灾站点对。单击容灾中心的 受保护服务器 页签。单击...

FAQs

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM能在 3分钟左右 准确发现故障并切换。网故障恢复时间=故障发现时间+网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、...

功能发布记录

2.流转规则支持在流转规则的详情页进行启用、禁用的功能,进行启用或禁用操作后,流转规则的列表状态随之发生改变。3.事件列表支持按照事件来源搜索。V1.0.14 2022-4-28 用户绑定”企业移动应用”并关联人员后,运维事件中心支持在每天早8...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO、RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 ...

功能概览

当主系统发生故障时,业务系统切换到容灾系统,有效避免了地域性灾害导致的系统故障,保障业务的可用性,满足业务的RTO/RPO核心指标。云盘异步复制是一种基于块存储数据复制能力实现跨地域或者跨可用区数据保护的功能。更多信息,请参见 云...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,RPO低至1分钟、RTO低至15分钟的高可靠的业务持续性保障,有效避免了地域性...

产品优势

安全可靠 DTS底层为服务集群,如果集群内任何一个节点宕机或发生故障控制中心都能够将这个节点上的所有任务快速切换到其他节点上,链路稳定性高。DTS内部对部分传输链路提供7×24小时的数据准确性校验,快速发现并纠正传输数据,保障传输...

步骤五:应用容灾

确保操作人员熟悉容灾恢复流程,当主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 页面,选择 恢复网络、...

跨可用区容灾

确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。按如下步骤进行容灾演练:在 受保护服务器 页签,单击要启动容灾演练服务器右侧对应的 操作 列表下的 容灾演练。在 容灾演练 面板,选择 恢复...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

故障协同处理(基于钉钉)

故障状态:展示故障实时状态变化,PC端和移动端故障状态保持一致,分为四个故障操作节点记录故障状态变换,方便用户查询操作记录。时间线:展示故障的时间线记录,其中有7个节点必须完善详细内容,节点已用红星标注,包含:故障发生故障...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

EasyCkpt:AI大模型高性能状态保存恢复

因此,在发生故障时,迫切需要一种以低成本的方法来保存最新的Checkpoint。这样在重新启动训练时就无需重复计算,从而减少时间和成本的浪费。功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的...

功能特性

创建实例 自动切换 在实例主节点发生故障时将自动切换,实现实例的故障自愈,切换通常需要30秒左右完成。主备切换 量备份与量恢复 对当前实例通过内存快照方式对量数据进行备份并保存在云存储中,可通过量恢复将数据恢复至备份时。...

网络架构容灾

当地址池中地址发生故障时,HealthCheck模块会准确的检测到异常情况并与DNS交互(如下图中序号3所示),摘除故障地址(如下图中序号4所示),这样用户端会自动解析到可用的地址池(如下图中序号5所示)。并当故障地址恢复时,自动恢复至...

读写分离架构

建议与使用须知 当一个只读节点发生故障时,请求会转发到其他节点;如果所有只读节点均不可用,请求会全部转发到主节点。只读节点异常可能导致主节点负载提高、响应时间变长,因此在读负载高的业务场景建议使用多个只读节点。只读节点发生...

Tair Proxy特性说明

A:推荐选择 集群架构,数据分片均采用主备高可用架构,当主节点发生故障后,系统会自动进行主备切换保证服务高可用。在某些极端场景下某个数据分片出现异常后,对数据的影响及优化方案如下。场景 影响与优化方案 图 2.多Key命令场景 影响...

API概览

您可以调用DescribeClusterEvents接口,获取指定集群中发生的事件列表,并查询事件的详细信息,包括事件级别、时间状态、时间发生时间等。任务 API 标题 API概述 DescribeTaskInfo 查询任务详情 您可以调用DescribeTaskInfo接口,查询集群...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

代码逻辑场景

受影响的请求数 否 0 限制最多发生故障的请求总数,每生效一次故障计数加1,累计发生故障请求数超出设定值后,请求则不再发生故障。填写数值小于等于0时,则表示不限制。受影响的请求占比(%)否 0 限制发生故障的请求数占所有应该发生故障...

Pod诊断

请登录 NAT网关管理控制台,检查集群的NAT网关是否因欠费而处于欠费锁定状态。集群NAT网关并发超规格丢弃速率 检查NAT网关会话并发超规格丢弃速率是否过高。集群NAT网关会话并发超规格丢弃速率过高,请尝试通过升级NAT网关的规格解决该问题...

发现和排查实例问题

诊断实例的健康状态 实例健康诊断功能可以方位诊断实例的操作系统配置、网络状态、磁盘状态等。诊断报告中针对异常诊断项目的影响按照严重程度区分,并提供修复方案,方便您及时处理潜在风险。更多信息,请参见 诊断实例的健康状态。及时...

基于Kubernetes容器集群的容灾架构与方案

在进行系统架构设计时,您必须考虑到信息系统和基础设施可能遇到的各种潜在威胁,例如:硬件故障、软件系统崩溃、人为操作失误、安全攻击、自然灾害等。为了确保系统能够在各种异常故障场景下快速恢复并保持业务连续性,您必须为系统设计...

ADP底座/本地运维控制台

修复trident从v1.1.9升级至1.11时PV创建Pending的问题 v1.4.0 新特性 线下故障诊断:本地运维控制台提供故障诊断大盘 可视化资源状态展示,辅助进行问题定位和根因分析。针对常见故障场景,提供修复方案和处理建议。组件运维操作可视化:...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

作业智能诊断

Flink Advisor作业智能诊断服务能够帮您监控作业健康状况,分析和诊断错误日志、异常...作业所在机器存在硬件故障,将在一段时间后自愈,届时您的作业将会发生一次Failover。您可以手动重启(停止后再启动)作业,来规避自愈产生的Failover。

作业调试

如果单个TaskManager资源过大,则TaskManager上运行的作业数会很多,一旦TaskManager发生单点故障,影响面会很大。日志配置 根日志等级 日志级别从低到高的顺序如下:TRACE:比DEBUG更细粒度的信息。DEBUG:系统运行状态的信息。INFO:重要...

事件上报

故障:设备上报运行过程中出现的故障。输出参数 语料推送标识:需与 服务调用 中输入参数的 任务标识 保持一致,用于向物联网平台反馈本次事件上报是针对具体哪一次语料推送服务调用。语料更新结果:反馈语料推送的结果:0:语料推送成功。...

专线链路备份

SAG-1000设备支持链路级的专线备份,当主用链路发生故障时,自动切换至备用链路。您可以在智能接入网关管理控制台查看当前专线备份链路状态。前提条件 您已经创建了专线和虚拟边界路由器(VBR)实例。详情请参见 什么是高速通道?您已经将...

AIOps 解决方案专家服务内容说明

智能故障发现解决方案 基于调研与评估的结果,为客户设计智能故障发现解决方案,包含:多账号统一监控数据接入,并根据应用分组为客户设计AI算法能力用于实时故障发现,并根据分析结果智能定位根因,提供实时异常检测的稳定性方案,保障...

作业引擎版本升级

升级流程 步骤一:备份作业状态 您可以在 作业运维 页面,单击目标作业,在作业详情中的 状态集管理 页签查看作业状态集,详情请参见 查看状态生成总览。如果您的作业属于有状态计算,那么在升级版本时,首要考虑的是状态能否复用。升级前...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 智能语音交互 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用