监控报警概述

故障预警 云电脑的故障信息、故障原因及故障时间等信息。使用场景 在日常业务运行的过程中,监控大盘帮助您及时了解账号下全部云电脑资源的全局情况,实时监控提供更详细的数据指标和故障预警信息,帮助您了解终端用户使用云电脑的情况,...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

功能特性

继而在风险事件发生时,将例行化、程式化、标准化的排查过程,通过故障决策树自动执行,并直接反馈诊断结果。通过故障诊断平台,能够极大地缩短故障排查时间。同时,屏蔽了不同运维人员在故障排查时的经验和技能差异,实现故障的快速定位。...

通用性能

1分钟诊断,1分钟恢复 开放能力:分析,决策,执行 告警规则和分析自定义 开通变更 支持全面协议 SSH、Telnet、GRPC、Netconf、Rest 执行性能:单进程1000/秒 CLI指令 开放能力:完全开放通用能力可自定义流程和业务逻辑 开通方案、业务...

概览

自定义监控为您提供了自定义监控项和报警规则的功能,您可以通过上报监控数据接口,将自己关心的业务指标上报至云监控,并在云监控上添加监控图表和设置报警规则,对于故障指标发送报警通知,便于您及时处理故障,保障业务的正常运行。...

概览

智能阈值可以凭借自动化报警能力简化报警规则配置和维护成本,2分钟~3分钟快速发现异常,有效降低业务的MTTR(故障恢复时长)。例如:Kafka消息堆积量突增,智能阈值及时召回异常并报警。现推荐以下消息队列Kafka版的监控指标配置智能阈值...

如何配置流转规则

触发故障 确定 故障触发规则:设置触发的持续时长和次数对故障进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发故障,只要将时长和次数分别设置为5分钟和3次即可;影响服务:设置故障的 影响面;故障触发后,对其同样存在影响的...

概述

告警对象的格式为告警规则名和故障实例,如 disk_log_usage_instance(实例:integration_22-ob2)。告警范围 告警范围用于定义某个告警对应的范围,和指标范围保持一致。告警范围包括:OceanBase 集群 OBCluster、数据评估、数据传输和...

【Fault Injection】故障注入

charset=utf-8 content-length:9593 access-control-allow-origin:*access-control-allow-credentials:true x-envoy-upstream-service-time:3 使用以下内容,配置httpbin应用的流量规则,注入故障。具体操作,请参见 管理虚拟服务。api...

【Fault Injection】故障注入

charset=utf-8 content-length:9593 access-control-allow-origin:*access-control-allow-credentials:true x-envoy-upstream-service-time:3 使用以下内容,配置httpbin应用的流量规则,注入故障。具体操作,请参见 管理虚拟服务。api...

【Fault Injection】故障注入

istioctl x waypoint apply-service-account httpbin 使用以下内容,创建虚拟服务,配置httpbin应用的流量规则,注入故障。具体操作,请参见 管理虚拟服务。apiVersion:networking.istio.io/v1beta1 kind:VirtualService metadata:name:...

【Fault Injection】故障注入

istioctl x waypoint apply-service-account httpbin 使用以下内容,创建虚拟服务,配置httpbin应用的流量规则,注入故障。具体操作,请参见 管理虚拟服务。apiVersion:networking.istio.io/v1beta1 kind:VirtualService metadata:name:...

应用场景

业务护航 您可以阶段性地或定期梳理涉及资金链路的核心业务。可通过配置核对规则,对各类数据作相互核对,或对数据内容作逻辑检查,系统将按规则监控业务的资损...您可以配置核对规则,以检查数据完整性,对数据质量作监控,及时发现故障

诊断节点

诊断节点是诊断决策树的子节点,通过节点之间的关联,实现一棵完整的决策树。新建节点 登录高可用管理控制台。在左侧导航栏上,单击 故障诊断>诊断节点。单击 新建,在 新建节点 页面,配置新节点的信息,包括节点名称、描述,选择节点类型...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

同城多活常见问题

本文介绍同城多活的常见问题以及解决方案。假设数据库主备,ECS双可用区部署,是否就是同城多活?和EDAS、MSE集群流量同可用区优先的...“10”:基于MSHA自上而下的流量规则管理和集成数据库同步能力,可分钟级完成容灾切换操作,恢复业务。

Mesh 常见问题

打开 MOSN 的/home/admin/logs/mosn/drm.access.log 日志文件,查找关键字 faultInjectRules:grep-irn"faultInjectRules"*.log 如果未收到故障注入规则,则检查 DsrConsole 与 DRM 的连接是否正常。netstat-na|grep 9880 若连接正常,...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

加工规则错误

本文档为您介绍数据加工规则错误的原因以及排查处理方法。读取源Logstore数据成功后,加工引擎开始对源Logstore的日志事件进行加工。该环节产生错误主要是由于在数据加工过程中,全部或者部分日志事件不适配加工规则,从而引发的逻辑错误。...

功能架构

告警管理 针对各资源对象,系统允许用户灵活地配置自定义告警规则,并支持多种订阅方式,如邮件、短信、钉钉等。当监控数据满足阈值条件时,第一时间通知对应的运维人员,帮助其发现异常及原因。企业级特性 在企业级特性层面,业务智能可...

ping不通云服务(SAG-100WM)

可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请参见...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的 服务;影响服务:选择 影响服务(可多选);进展摘要:处理人将事件升级为...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

功能概览

告警暂停/开启 由于某些暂定原因需对规则暂停告警,暂停期内将不会进行检测和产生告警。配置模版 配置模版 提供监控配置模板功能,支持将应用和自定义监控告警以配置模板(JSON 文件)导出,然后一键导入其他环境。如该环境已部署同名应用...

GetProblem-故障详情

故障详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

设备显示离线

可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的运营商网络正常。如果不正常,请处理运营商网络问题。如果正常,请跳转至 步骤2。请检查设备本身是否上电。电源状态...

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...

开启健康检查

开启健康检查是指对地址池中的地址配置健康检查策略,开启后可监测应用服务的可用性状态,并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查的类型包括:Ping监控、TCP监控、HTTP(S)监控。前提条件 已完成 创建实例、创建...

混合云应用双活容灾最佳实践

容灾切换数据质量保障难 容灾切换过程中,可能因数据同步延迟导致读到旧数据,以及切换规则推送到分布式应用节点时间不一致等原因可能造成云上云下数据库同时读写而出现脏写的问题,整个切换过程数据质量保障是关键点及难点。无业务代码...

故障诊断

接入流程 ADP-Local的故障诊断引擎,允许客户根据业务场景配置诊断规则,然后根据诊断素材匹配诊断规则,并给出诊断建议,除了文档帮助,还可以关联运维操作进行问题修复。匹配k8s资源属性或状态 通过判断特定类型资源某个参数值符合某特征...

单笔数据 Top

六、配置报警 Top 报警配置 指设置一定的报警规则,可通过手机短信方式接收故障报警。实时监控提供可视化报警配置,支持大于排序值阈值的统计项数量的报警统计规则、支持多条件多套报警配置、并可按不同时间段设置预警。为不同的报警方式...

ADP底座介绍

具体支持以下功能:配置钉钉机器人作为告警通道 配置邮箱作为告警通道 配置Webhook作为告警通道 配置不同告警接收订阅组 通过表达式配置告警规则 通过指标算法配置告警规则 通过值算法配置告警规则 对告警通知进行静默及还原 组件诊断 为...

GTM如何实现异地容灾

两地三中心容灾架构,是指在同城双中心的基础上,在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。目标读者 企业网络部、业务运维部工作...

未收到告警通知的排查思路

未触发告警 查看告警的 原因,根据 告警监控错误码 进行排查。查看 告警历史统计 仪表盘,在页面底部的 告警历史 区域,查看 通知发送状态。成功发送 Success不代表告警管理系统已将告警通知发送给告警接收人,仅代表告警监控系统已将告警...

名词解释

故障 业务的规则会引起监控数据异常,监控工具检测到异常后会生成事件。[回到顶部]H 环比上升/下降%若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为前2N分钟到前N分钟的数据,环比为β与α做比较。L 联系人 处理告警...

名词解释

故障 业务的规则会引起监控数据异常,监控工具检测到异常后会生成事件。[回到顶部]H 环比上升/下降%若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为前2N分钟到前N分钟的数据,环比为β与α做比较。L 联系人 处理告警...

通过可观测性能力进行故障处理最佳实践

通过仪表盘、监控报警等可观测功能,您可以对消息收发各阶段的重点指标和服务端状态进行监控和观测,并对重点指标设置告警规则以便及时上报异常。本文为您介绍如何将 云消息队列 RocketMQ 版 可观测性功能应用于 云消息队列 RocketMQ 版 的...

名词解释

故障 业务的规则会引起监控数据异常,监控工具检测到异常后会生成事件。[回到顶部]H 环比上升/下降%若β为最近N分钟的数据(可选择为平均值、总和、最大值和最小值),α为前2N分钟到前N分钟的数据,环比为β与α做比较。[回到顶部]J 集成 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网平台 NAT网关 数据库自治服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用