设计方案

从提前发现系统风险、提升测试质量、完善风险预案、加强监控告警、提升故障应急效率等方面做到故障发生前有效预防,故障发生时及时应对,故障恢复后回归验证。基于故障本身打造分布式系统韧性,持续提升软件质量,增强团队对软件生产运行的...

同城多活架构实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期:电商首页展示的查询链路对商品应用是强依赖,强依赖故障将导致业务不可用,且故障的...

读多写少型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:导购链路对购物车应用是弱依赖(导购页会展示用户放入购物车的商品数量),弱依赖...

趋势分析

通过延时、丢包率、探测次数三个指标在不同维度、不同汇聚粒度的表现来判断网络趋势,可以用来定位网络故障发生的时间点以及业务的网络质量趋势。首页点击 详情分析 按钮,进入“趋势分析”页面。筛选条件:说明 筛选条件“统计时间段”,...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

故障演练

但这些措施在故障发生时的有效性、故障恢复工具的真实容灾能力、处理问题人员的熟练度,沟通机制、容灾措施对上层的影响等问题,平时并没有太多的机会验证,往往都是在真实故障中暴露。故障演练就是这个背景下诞生的,沉淀通用的故障场景,...

查看应用分组

当您禁用正在发生报警的规则后,规则对应资源的监控项将不在故障列表中显示。可用性监控 您可以查看目标应用分组内可用性监控任务,也可以创建、修改、删除、启用或停用可用性任务。组进程监控 您可以查看目标应用分组内所有进程监控记录,...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

监控告警

连接数告警 QPS告警 状态码告警 DDoS黑洞事件告警 事件监控告警 您可以设置事件监控报警通知,及时获知DDoS高防(中国内地)和DDoS高防(非中国内地)上发生的黑洞、清洗、四层CC攻击、七层CC攻击事件,并在发生故障时及时发现问题,缩短...

故障基础数据管理

P4 故障场景监控覆盖 基于故障等级定义场景,配置对应的监控项接入7*24监控值班,同时对接入的监控数据额外提供基于算法的智能告警,或者接入研发可自闭环的风险预警,保障业务故障监控发现率,减少故障持续时间,降低故障影响。...

监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

概览

智能阈值报警是针对云监控中的云资源实例的监控指标推出的智能报警功能,它自动适配并拟合监控指标的历史数据,展示报警阈值边界,发现监控指标突增或突降的异常行为,为您业务的稳定性提供保障。什么是智能阈值 智能阈值基于机器学习算法...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

使用云监控功能监控网站环境(部署于ECS实例)

同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要完成以下操作:检查ECS监控插件运行情况,确保监控信息能够正常采集。如果安装失败则需要手动安装插件,具体...

FAQs

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM能在 3分钟左右 准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台、...

常见问题-FAQ

答:经过测试团队对GTM多次测试验证,当应用服务发生故障时,GTM最快可在1分钟左右准确发现故障并切换。全网故障恢复时间=故障发现时间+全网生效时间。说明 受限于拨测平台探点发生变化和全国各地运营商TTL缓存原因,如使用不同的拨测平台...

故障应急协同

故障应急协同群 故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...

什么是故障

本文主要介绍什么是故障。定义 在日常运营中,无论什么原因导致业务服务中断、服务品质...故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务连续性形成改进,避免历史同类故障重复发生

订阅事件通知

数据传输服务DTS(Data Transmission Service)已接入云监控平台,您可以通过事件订阅对重要的事件设置定制化的报警通知,让您及时了解事件的发生与进展,帮助您实时掌握事件动态,便于您在业务故障时快速分析并定位问题。背景信息 云监控...

故障管理

通过建立一个规范可遵循、全流程闭环的故障管理体系,配合技术手段的提升,可以有效降低故障发生的几率,缩短故障的MTTR,最终使故障造成的破坏性趋近于0。在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

什么是云监控

事件监控 为您提供事件的上报、查询、报警功能,方便您将业务中的各类异常事件或重要变更事件收集上报到云监控,并在异常发生时接收报警。自定义监控 您可以针对自己关心的业务指标设置自定义监控,将采集到的监控数据上报至云监控,由云...

事件中心

该视图可以帮助您在应用出现故障时,快速排查关联的资源各自发生了什么问题。例如在大型企业中,由于某个员工的误操作,重启了生产环境的RDS,导致线上业务故障,利用该视图,可以快速的发现应用访问的RDS出现了重启操作。集群视图 集群...

性能监控最佳实践

通过将多个性能监控工具整合在一起,形成一个统一的监控平台,可以提高监控效率、监控精度、故障排查效率和可视化程度,从而帮助企业更好地了解其业务系统的运行情况,提高业务系统的稳定性和可靠性。建设一体化性能监控平台步骤 一体化...

阈值检测

应用场景 当您发现经常收到某条告警,但是系统又没有发生任何故障时,可能是因为当前的阈值设置得不够合理,或者是该阈值不适合某些应用或接口。这种场景下,您可以使用 建议阈值 功能,对告警规则的阈值进行调整,或对部分应用、接口的...

阈值检测

应用场景 当您发现经常收到某条告警,但是系统又没有发生任何故障时,可能是因为当前的阈值设置得不够合理,或者是该阈值不适合某些应用或接口。这种场景下,您可以使用 建议阈值 功能,对告警规则的阈值进行调整,或对部分应用、接口的...

2022年

v2.8.5.1 新增性能监控套件和集群事件采集组件接入功能 新增接入集群事件采集、CoreDNS性能监控、Ingress性能监控、工作负载性能监控。更多信息,请参见 性能监控套件和集群事件采集说明。v2.8.5.1 Prometheus实例 for 容器服务新增包年...

Spring Boot应用如何快速接入Prometheus监控

及时的告警和应急管理 当业务即将出现故障时,监测系统需要迅速反应并通知管理员,从而能够对问题进行快速的处理或者提前预防问题的发生,避免出现对业务的影响。当问题发生后,管理员需要对问题进行认领和处理。通过对不同监测指标以及...

Spring Boot应用如何快速接入Prometheus监控

及时的告警和应急管理 当业务即将出现故障时,监测系统需要迅速反应并通知管理员,从而能够对问题进行快速的处理或者提前预防问题的发生,避免出现对业务的影响。当问题发生后,管理员需要对问题进行认领和处理。通过对不同监测指标以及...

如何使用Prometheus监控Windows

本文介绍如何使用Prometheus监控Windows。前提条件 已将VPC实例接入 可观测监控 Prometheus 版。具体操作,请参见 Prometheus实例 for ECS。使用限制 目前仅Prometheus实例 for ECS类型实例支持该组件接入。Windows Metric监控参考模型 ...

如何使用Prometheus监控Windows

本文介绍如何使用Prometheus监控Windows。前提条件 已将VPC实例接入 可观测监控 Prometheus 版。具体操作,请参见 Prometheus实例 for ECS。使用限制 目前仅Prometheus实例 for ECS类型实例支持该组件接入。Windows Metric监控参考模型 ...

通过站点监控功能监控DNS解析异常

通过站点监控功能监控中国三大运营商(中国移动、中国电信、中国联通)各省份用户访问某个域名时的解析结果。当域名解析异常时,您可以通过报警信息分析异常原因,还可以根据探测结果排查问题。DNS解析原理 域名解析(DNS)就是将域名转换...

管理事件订阅(推荐)

当资源的系统事件或监控指标达到报警条件时,云监控自动发送原始报警通知给报警联系人。您可以通过事件订阅,对报警通知进行定制化处理,例如:订阅系统事件或阈值事件、对报警进行合并降噪、升级报警联系组、自定义报警通知方式、将报警...

管理报警规则

通道沉默周期 报警发生后未恢复正常,间隔多久重复发送一次报警通知。取值:5分钟、15分钟、30分钟、60分钟、3小时、6小时、12小时和24小时。某监控指标达到报警阈值时发送报警,如果监控指标在通道沉默周期内持续超过报警阈值,在通道沉默...

查看智能洞察事件列表

智能洞察详情 应用服务整体平均响应时间突增 应用服务整体平均响应时间突增 类型的事件详情页面显示了事件发生时间点、根因分析和故障传播链。在智能洞察详情页面,您可以执行以下操作:单击 根因分析 区域的疑似根因链接,在疑似根因面板...

如何使用Prometheus监控SNMP

本文介绍如何使用Prometheus监控SNMP。前提条件 已创建 容器服务类型的Prometheus实例,具体操作,请参见 Prometheus实例 for 容器服务。使用限制 目前仅Prometheus实例 for 容器服务类型实例支持该组件接入。SNMP简介 SNMP系统组成 SNMP...

如何使用Prometheus监控SNMP

本文介绍如何使用Prometheus监控SNMP。前提条件 已创建 容器服务类型的Prometheus实例,具体操作,请参见 Prometheus实例 for 容器服务。使用限制 目前仅Prometheus实例 for 容器服务类型实例支持该组件接入。SNMP简介 SNMP系统组成 SNMP...

MQ推送

MQ推送用于监控物联网卡的状态变化以及流量使用情况,并可以直接将消息推送到用户自己的系统中,帮助用户实时接收物联网卡的状态变化、套餐用量等信息。使用说明 MQ推送与自动化规则都是用于监控物联网卡的状态变化以及流量使用情况,主要...

ARMS告警精细管理最佳实践

背景知识 在告警管理中有一个非常重要的指标Mean Time To Contain(MTTC),MTTC描述了从检测到故障事件到控制和解决该事件所需的平均时间。它是一个关键指标,因为它衡量了一个组织对事件的响应能力和效率。较短的MTTC意味着组织能够快速...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云监控 物联网无线连接服务 轻量应用服务器 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用