故障处理流程

当智能接入网关设备发生网络故障后,您可以先观察现象、收集信息,然后对现象和信息进行分析诊断,尝试修复问题。本文为您介绍智能接入网关设备故障处理流程。SAG-100WM故障处理流程说明 通过SAG-100WM访问阿里云,发现故障,请参见以下...

混合云解决方案

如果MASTER 宕机,发生故障转移,此时SLAVE如果要提供服务,日志读取器会等待镜像日志先同步,再做发布,但如果MASTER发生硬件故障,此时SLAVE需要打开一个跟踪标记1448,在镜像故障的情况下可以继续分发数据。说明 1448标记用于在事务...

限流防护

使用ASMGlobalRateLimiter对入口网关和应用服务入口流量配置全局限流 本地限流的工作原理 Envoy代理使用令牌桶算法实现本地限流。令牌桶算法是一种限制发送到服务端的请求数量的方法,基于一定数量的令牌桶。存储桶以恒定的速率不断填充...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

围绕混沌工程的平台实践

因此混沌工程是一门学科,它提供了基本的理论指导,而故障演练是混沌工程的具体实践,通过向目标系统注入真实可能发生故障来考量系统的稳定性。混沌工程和AHAS Chaos AHAS Chaos是以混沌工程为理论指导的故障演练平台,目标是成为混沌...

设计方案

风险预测:风险预测是指在发生故障前,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。在故障应急响应中,风险预测可以作为重要参考,帮助快速识别问题的根本原因,提高故障处理效率和精度。故障响应 在发现故障...

演练场景

故障演练是业务系统上线前必要的演练环节,旨在对应急预案的可行性,进一步完成应急预案,从而帮助提升产品、集群、机房的稳定性,减少故障发生,提高故障应急效率,进而提升产品竞争力。一个完整的故障演练过程为 创建故障原子服务>创建...

灾备规划

RTO和RPO要求 应用容灾有两个核心的指标:RPO:指应用发生故障时可以容忍的数据丢失量。数据越重要,RPO就要求越小。RPO越小,往往要求数据备份、复制频率更高,对生产环境、网络的压力也会越大,成本通常也越高。RTO:指故障发生后,期望...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

云盒计算资源配置最佳实践

冗余的算力配置,可以大幅提升硬件风险应对能力 云盒提供的IaaS层稳定性,依赖于云上提前预测硬件故障算法能力,以及宕机迁移和热迁移能力。这些能力可以有效提升云盒IaaS层的故障和风险应对能力,但也需要一定的冗余资源,以便在硬件...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

采集客户端数据的高可用方案

当Logstore A发生故障时,Logstore B的数据仍然实时可用。当Logstore B发生故障时,Logstore A的数据仍然实时可用。操作步骤:在日志服务控制台上,创建Project和Logstore。创建A地域的Project A和Logstore A。创建B地域的Project B和...

功能特性

此外,在数据库实例发生故障且无法定位原因时,可以利用克隆库复现故障场景,以便更好地定位故障原因。智能压测 搜索分析 查询并导出SQL语句对应的日志信息。搜索 SQL洞察 SQL洞察聚类分析,用作深度异常的排查。SQL洞察 安全审计 内置了...

故障发现

各业务对故障的重视程度都非常高,误发、故障都会产生较大影响,故障需要人工确认发送保证准确;故障处理过程需要人工组织跟进;故障应急争分夺秒,Oncall时效难以保障。7*24监控值班的主要考核指标有:通告及时率、通告准确率、快恢...

阈值检测

应用场景 当您发现经常收到某条告警,但是系统又没有发生任何故障时,可能是因为当前的阈值设置得不够合理,或者是该阈值不适合某些应用或接口。这种场景下,您可以使用 建议阈值 功能,对告警规则的阈值进行调整,或对部分应用、接口的...

阈值检测

应用场景 当您发现经常收到某条告警,但是系统又没有发生任何故障时,可能是因为当前的阈值设置得不够合理,或者是该阈值不适合某些应用或接口。这种场景下,您可以使用 建议阈值 功能,对告警规则的阈值进行调整,或对部分应用、接口的...

阈值检测

应用场景 当您发现经常收到某条告警,但是系统又没有发生任何故障时,可能是因为当前的阈值设置得不够合理,或者是该阈值不适合某些应用或接口。这种场景下,您可以使用 建议阈值 功能,对告警规则的阈值进行调整,或对部分应用、接口的...

SQL优化技术

效果评估:效果评估算法会对被优化的SQL及相关SQL模板进行性能跟踪,避免出现性能恶化导致故障。性能跟踪的算法基于决策树模型,包括全量SQL追踪和慢SQL追踪等多维度追踪,对SQL模板优化后的性能指标与优化前进行对比,综合判断SQL模板在该...

ECS系统事件概述

说明 计划内运维事件也称主动运维事件,是阿里云基于百万级服务器的管理运维经验,服务上万家大型企业客户的能力沉淀,以及达摩院的前沿机器学习算法,对底层宿主机的软硬件故障风险进行预测和主动规避。当宿主机上的故障风险无法规避时,...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

数据智能概述

功能简介 算法实例 通过配置算法实例,来分析光伏电站运维数据或设备运行数据,使您能及时监测和掌控光伏电站或设备的运行状态和故障情况。算法模板 物联网平台提供算法模板供您使用,您可以查看算法模板的详情信息,如:算法详细介绍、...

监测和诊断eRDMA

检测项 说明 期望输出 异常输出及解决方式 cc algorithm eRDMA当前使用的CC算法 eRDMA CC算法,例如cubic FAIL:未查询到当前eRDMA CC算法,可能是未正确安装eadm工具或当前eadm工具不支持查询eRDMA CC算法。go-back-n support eRDMA设备...

开启辅助DNS

勾选是否使用故障通知:开启后,当出现主辅DNS连接中断时,云解析将短信通知您。完成上述辅助DNS的配置后,您可以在辅助DNS列表页查看到辅助DNS的运行状态。辅助DNS同步开关状态为 已开启:代表您的域名已在Privatezone中开启了辅助DNS功能...

开启辅助DNS

勾选是否使用故障通知:开启后,当出现主辅DNS连接中断时,云解析将短信通知您。完成上述辅助DNS的配置后,您可以在辅助DNS列表页查看到辅助DNS的运行状态。辅助DNS同步开关状态为 已开启:代表您的域名已在Privatezone中开启了辅助DNS功能...

开启辅助DNS

勾选是否使用故障通知:开启后,当出现主辅DNS连接中断时,云解析将短信通知您。最后点击 确认。完成上述辅助DNS的配置后,在辅助DNS页面的列表中可以看到添加的域名,同步开关为开启状态的域名表示已开启辅助DNS。主辅连接状态为 正常:...

网络资源

容灾:建立容灾和高可用的系统架构,将系统部署在多个地理位置或数据中心,并使用负载均衡和故障切换技术,以确保即使发生网络分区,系统仍然可以继续提供服务。网络闪断故障 指网络连接在短时间内频繁中断和恢复,造成网络连接不稳定的...

什么是设备诊断

设备诊断是阿里云物联网平台针对设备运行数据提供的一系列运维场景智能服务,帮助您分析判断设备故障、探测设备潜在风险并及时预知业务异常。服务架构 服务优势 丰富的数据诊断指标 提供网络连接成功率、设备离线原因、云对接次数等丰富的...

调整I2I算法策略,强化实时反馈的用户体验

本文将向您介绍,在终端用户在刷新推荐结果的过程中,如果想要更加直观地促进用户感受到“随着兴趣的变化,推荐结果进一步关怀用户兴趣”即“实时反馈”,应当如何配置算法策略、配合相关产品功能从而达到此效果。一、记录用户行为并实时...

内容审核常见错误码

当API请求发生错误的时候,服务端会返回错误信息。本文为您介绍内容审核API返回的错误码信息。说明 阿里云视觉智能开放平台各类目视觉AI能力API接入、接口使用或问题咨询等,请通过钉钉群(23109592)加入阿里云视觉智能开放平台咨询群联系...

云市场常见问题

算法服务集群的总容量平常是按照最近30天的调用峰值作为参考加上一定比例的富余容量进行配置的,通常不会出现这种总量不够的情况,但由于各客户调用QPS存在偶发性,在特殊情况下可能会发生总量挤兑,此种情况您可以联系我们进行反馈(我们...

目标检测常见错误码

当API请求发生错误时,服务端会返回错误信息。本文为您介绍目标检测API返回的错误码信息。说明 阿里云视觉智能开放平台各类目视觉AI能力API接入、接口使用或问题咨询等,请通过钉钉群(23109592)加入阿里云视觉智能开放平台咨询群联系我们...

人脸人体常见错误码

当API请求发生错误时,服务端会返回错误信息。本文为您介绍人脸人体API返回的错误码信息。说明 阿里云视觉智能开放平台各类目视觉AI能力API接入、接口使用或问题咨询等,请通过钉钉群(23109592)加入阿里云视觉智能开放平台咨询群联系我们...

概览

在以上业务场景下,智能阈值针对各主要云产品的核心监控指标,可以有效地在指标异常发生3分钟内召回85%以上问题及故障。降低阈值配置维护成本 智能阈值无需输入具体数值,只需要创建一条智能阈值报警规则,选择对应的报警条件(边界以外、...

DAS Auto Scaling弹性能力

“紧急”告警发出稍晚,业务受到突发情况影响的时间就会相对较长,对业务会产生影响,甚至引发业务故障。在实时监控的场景下,当我们面临一个突发的异常点时,很难预判下一时刻是否还会异常。因此,是否需要应急告警变得比较难以决断。对于...

APPROX_COUNT_DISTINCT

精度参数含义为HyperLogLog算法的分bit位个数,参数越大,代表分越多,理论精度越高。精度参数取值越高,计算时间和内存开销也会相应增大,但都远远小于精确的 COUNT DISTINCT(column)语句带来的开销,因此,推荐选用APPROX_COUNT_...

EMR Kafka磁盘故障运维

当磁盘发生故障时,应及时完成相关故障的处理,及时恢复集群的容错能力。磁盘运维概述 本文从磁盘监控和磁盘故障恢复角度来介绍磁盘运维策略。磁盘监控 以下内容从Kafka服务层面以及ECS系统层面来简单了解一下磁盘的监控策略。Kafka服务...

算法说明

算法简介 下探分析算法检测异常事件发生时指标序列的各个维度的子序列的变化情况,监控子序列的真实值与预期值的偏离程度,偏离程度越高,该维度子序列越有可能是异常事件的根因。由于维度组合数量较多,下探分析算法使用一些启发式策略...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 负载均衡 风险识别 智能开放搜索 OpenSearch 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用