设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

概览

自定义监控为您提供了自定义监控项和报警规则的功能,您可以通过上报监控数据接口,将自己关心的业务指标上报至云监控,并在云监控上添加监控图表和设置报警规则,对于故障指标发送报警通知,便于您及时处理故障,保障业务的正常运行。...

概览

智能阈值可以凭借自动化报警能力简化报警规则配置和维护成本,2分钟~3分钟快速发现异常,有效降低业务的MTTR(故障恢复时长)。例如:Kafka消息堆积量突增,智能阈值及时召回异常并报警。现推荐以下消息队列Kafka版的监控指标配置智能阈值...

如何配置流转规则

触发故障 确定 故障触发规则:设置触发的持续时长和次数对故障进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发故障,只要将时长和次数分别设置为5分钟和3次即可;影响服务:设置故障的 影响面;故障触发后,对其同样存在影响的...

查看并管理整改流程

② 筛选及搜索区 您可以根据整改对象的名称或规则的名称进行模糊搜索,也可以根据 规则强度、校验结果、治理状态、是否 忽略异常 进行精确筛选。③ 列表区 为您展示 整改对象、校验对象、规则名称、治理状态、最近一次校验结果、规则强度、...

查看并管理整改流程

② 筛选及搜索区 您可以根据整改对象的名称或规则的名称进行模糊搜索,也可以根据 规则强度、校验结果、治理状态、是否 忽略异常 进行精确筛选。③ 列表区 为您展示 整改对象、校验对象、规则名称、治理状态、最近一次校验结果、规则强度、...

概述

告警对象的格式为告警规则名和故障实例,如 disk_log_usage_instance(实例:integration_22-ob2)。告警范围 告警范围用于定义某个告警对应的范围,和指标范围保持一致。告警范围包括:OceanBase 集群 OBCluster、数据评估、数据传输和...

查看规则详情

搜索:您可以通过规则名称中的关键字模糊搜索目标规则。筛选:您可以通过合规包名称、风险等级、合规状态和运行状态迅速找到目标规则。单击目标规则ID链接,或单击目标规则对应 操作 列的 详情。您可以查看目标规则规则详情、规则对资源...

代码逻辑场景

请求过滤规则 否 无 通过脚本方式自定义规则,通过自定义规则决策是否对请求产生故障。自定义规则生效前提为需满足其他设定条件。过滤规则执行阶段 否 无 自定义过滤规则执行的阶段,可选择Java方法调用前执行或Java方法调用后执行。开启...

【Fault Injection】故障注入

charset=utf-8 content-length:9593 access-control-allow-origin:*access-control-allow-credentials:true x-envoy-upstream-service-time:3 使用以下内容,配置httpbin应用的流量规则,注入故障。具体操作,请参见 管理虚拟服务。api...

【Fault Injection】故障注入

charset=utf-8 content-length:9593 access-control-allow-origin:*access-control-allow-credentials:true x-envoy-upstream-service-time:3 使用以下内容,配置httpbin应用的流量规则,注入故障。具体操作,请参见 管理虚拟服务。api...

【Fault Injection】故障注入

istioctl x waypoint apply-service-account httpbin 使用以下内容,创建虚拟服务,配置httpbin应用的流量规则,注入故障。具体操作,请参见 管理虚拟服务。apiVersion:networking.istio.io/v1beta1 kind:VirtualService metadata:name:...

【Fault Injection】故障注入

istioctl x waypoint apply-service-account httpbin 使用以下内容,创建虚拟服务,配置httpbin应用的流量规则,注入故障。具体操作,请参见 管理虚拟服务。apiVersion:networking.istio.io/v1beta1 kind:VirtualService metadata:name:...

应用场景

业务护航 您可以阶段性地或定期梳理涉及资金链路的核心业务。可通过配置核对规则,对各类数据作相互核对,或对数据内容作逻辑检查,系统将按规则监控业务的资损...您可以配置核对规则,以检查数据完整性,对数据质量作监控,及时发现故障

边缘应用告警规则对接

接口定义 路径:/alarm/rule/query版本:1.0.0 入参 参数名 字段类型 是否必填 描述 nameLike String 非必填 告警规则名称,模糊匹配 alarmLevel Integer 非必填 告警等级,0严重,1高,2中,3低 status Integer 非必填 启用状态,1启用,0...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

Mesh 常见问题

打开 MOSN 的/home/admin/logs/mosn/drm.access.log 日志文件,查找关键字 faultInjectRules:grep-irn"faultInjectRules"*.log 如果未收到故障注入规则,则检查 DsrConsole 与 DRM 的连接是否正常。netstat-na|grep 9880 若连接正常,...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

服务等级目标SLO概述

告警规则 告警规则能够根据故障的严重程度,在故障发生时及时发出不同等级的提醒,帮助您在错误预算被过多消耗之前及时响应。ASM基于“多窗口多燃烧率告警策略”生成告警规则,适用于大多数场景。多燃烧率策略下,短时间内的高故障率或持续...

Prometheus告警规则

通过创建Prometheus监控告警规则,您可以制定针对特定Prometheus实例的告警规则。当告警规则设置的条件满足后,系统会产生对应的告警事件。如果想要收到通知,需要进一步配置对应的通知策略以生成告警并且以短信、邮件、电话、钉群机器人、...

网络资源

网络闪断故障可能由多种原因引起,如网络设备故障、电力波动、通信线路故障等。网络闪断会导致数据传输中断,影响系统和应用程序之间的数据传输,频繁的网络闪断可能导致系统或应用程序无法正常运行。常使用的容错策略如下:设备冗余:使用...

加工规则错误

本文档为您介绍数据加工规则错误的原因以及排查处理方法。读取源Logstore数据成功后,加工引擎开始对源Logstore的日志事件进行加工。该环节产生错误主要是由于在数据加工过程中,全部或者部分日志事件不适配加工规则,从而引发的逻辑错误。...

Prometheus告警规则

通过设定 Prometheus 告警规则,您可以为特定的监控指标设定条件触发告警。满足这些条件时,系统会生成相应的告警事件。为了接收这些告警通知,您需要配置告警通知策略,它可以将告警通过短信、电子邮件、电话、钉钉群机器人、企业微信机器...

JVM注入动态脚本

请求过滤规则 否 无 通过脚本方式自定义规则,通过自定义规则决策是否对请求产生故障。自定义规则生效前提为需满足其他设定条件。过滤规则执行阶段 否 无 自定义过滤规则执行的阶段,可选择Java方法调用前执行或Java方法调用后执行。开启...

ListAuthorizationRules-查询授权规则

System FuzzyDestination string 否 模糊的访问目标 aliyuncs FuzzyAuthorizationRuleName string 否 模糊的授权规则名称 测试 返回参数 名称 类型 描述 示例值 object 返回信息列表。RequestId string 请求 ID。CEF72CEB-54B6-4AE8-B225-F...

功能架构

告警管理 针对各资源对象,系统允许用户灵活地配置自定义告警规则,并支持多种订阅方式,如邮件、短信、钉钉等。当监控数据满足阈值条件时,第一时间通知对应的运维人员,帮助其发现异常及原因。企业级特性 在企业级特性层面,业务智能可...

自动运维

搜索规则规则管理 页面左上方的搜索栏,可以通过输入规则名称进行模糊匹配来快速查找目标规则。查看、修改和删除规则 如需查看规则信息,请在 规则管理 页面,单击目标规则所在行右侧的 查看。如需修改规则定义,请单击 查看规则 ...

ping不通云服务(SAG-100WM)

可能原因 终端到设备的链路故障。设备到阿里云的VPN链路故障。目标ECS故障。运营商网络故障。解决方案 登录 智能接入网关控制台。单击智能接入网关实例ID,查看设备状态是否为 可用。如果离线,请参见 设备显示离线 处理。如果在线,请参见...

如何管理事件

故障状态:处理中(升级时故障还在处理中),输入发现故障的时间、已恢复(升级时故障已恢复),输入故障生成的时间和故障恢复的时间;所属服务:升级故障所属的 服务;影响服务:选择 影响服务(可多选);进展摘要:处理人将事件升级为...

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

异常列表

指定条件:规则名称(支持模糊匹配)。异常详情 单击异常列表中的异常 ID,进入 异常详情 页面。异常详情页面包含 处理结论、基本信息 和 差异数据。处理结论:处理结论仅在异常状态为 已关闭 时可见。基本信息:负责人:异常的负责人即...

新建及管理知识库

相关质量规则:您可根据监控对象类型筛选相关监控对象,也可根据监控对象、校验对象和质量规则的名称进行模糊搜索。相关文件:您可根据文件的名称搜索文件;同时,您可单击操作列下的下载文件图标,下载单个文件,也可单击底部的下载文件...

新建及管理知识库

相关质量规则:您可根据监控对象类型筛选相关监控对象,也可根据监控对象、校验对象和质量规则的名称进行模糊搜索。相关文件:您可根据文件的名称搜索文件;同时,您可单击操作列下的下载文件图标,下载单个文件,也可单击底部的下载文件...

0004-00000243

问题原因 图片处理模糊作用范围参数不符合取值范围要求。问题示例 GET/example_image?x-oss-process=image/blur,g_fac,r_25,s_50 HTTP/1.1 Host: oss-example.oss-cn-hangzhou.aliyuncs.com Date: Fri,03 Feb 2023 03:41:49 GMT Content-...

GetProblem-故障详情

故障详情。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求头 该接口使用公共请求头,无特殊请求头。请参见公共请求参数文档。请求语法 POST/problem/...

0004-00000244

问题原因 图片处理模糊算子倍率参数不符合取值范围要求。问题示例 GET/example_image?x-oss-process=image/blur,g_face,p_1000,r_25,s_50 HTTP/1.1 Host: oss-example.oss-cn-hangzhou.aliyuncs.com Date: Fri,03 Feb 2023 03:41:49 GMT ...

如何配置通知订阅

新增通知订阅 前提条件:已创建需要订阅的服务或服务关联的流转规则。登录 运维事件中心控制台;左侧导航栏 策略中心>通知订阅 页面配置通知订阅;在 通知订阅 页面点击 新增通知订阅 进入 新增通知订阅 的配置页面;4.在 新增通知订阅 的...

设备显示离线

可能原因 设备软件故障。设备到阿里云联网故障。解决方案 通过尝试在同一个运营商出口环境内 ping 其他知名网站,确认您的运营商网络正常。如果不正常,请处理运营商网络问题。如果正常,请跳转至 步骤2。请检查设备本身是否上电。电源状态...

NAT网关故障排查指南

本文介绍NAT网关的常见故障及排查方案。流量不通类故障排查:ECS实例配置DNAT条目后无法被公网访问 VPC内新建交换机的ECS无法通过SNAT访问公网 VPC内存在多个NAT网关时,某交换机的ECS实例不能访问公网 访问流量异常类故障排查:客户端访问...

开启健康检查

开启健康检查是指对地址池中的地址配置健康检查策略,开启后可监测应用服务的可用性状态,并最终帮助企业实现自动故障隔离和自动故障切换的功效。健康检查的类型包括:Ping监控、TCP监控、HTTP(S)监控。前提条件 已完成 创建实例、创建...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 物联网平台 NAT网关 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用