故障演练常见问题

欢迎您反馈在使用故障演练过程中遇到的问题,目前提供以下常见问题供您参考。单个演练活动成功状态怎么判断?因为一个活动可能会有很多目标机器,当所有机器执行完毕之后,如果有机器没有执行成功,那么这个演练活动就会被系统判断为失败。...

常见问题概述

本章节汇总了使用 可观测监控 Prometheus 版 的常见问题。计费相关 什么是性能监控套件与集群事件采集能力?如何调整指标的存储时长?包年包月方式如何续费?购买时长到期后,已上报指标数据将如何处理 何时会自动释放实例资源?接入后,为...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

监控与日志

性能监控数据 在 性能监控 页面,选择文件系统类型和目标文件系统ID,查看该文件系统的读写IOPS、读写延迟、读写吞吐等监控数据。容量监控数据 在容量监控页面,选择文件系统类型和目标文件系统ID,查看该文件系统的存储空间使用量、文件数...

NAS监控概述

通过查看NAS文件系统监控信息,您可以了解文件系统的使用情况。通过对文件系统的重要监控指标设置报警规则,您可以及时获知指标异常并快速处理异常。本文介绍NAS支持的监控项以及其报警规则说明。背景信息 云监控(CloudMonitor)是一项...

查看事件与监控信息

服务实例创建完成后,您可以在计算巢控制台查看服务实例的事件和监控信息,本文向您介绍如何查看服务实例事件和监控信息。操作步骤 登录 计算巢控制台。在左侧导航栏中,单击 服务实例管理。根据您创建的服务实例类型,单击对应的服务类型...

如何使用Prometheus监控Cassandra

说明 单击该卡片,在弹出的面板中您可以看到关于Cassandra监控常见的指标和大盘缩略预览效果图。这里列举出的指标只是Cassandra常见的一部分关键指标信息,具体请参见下文 关键指标说明,待您安装Cassandra成功后,您将会查看到 可观测监控...

如何使用Prometheus监控Cassandra

说明 单击该卡片,在弹出的面板中您可以看到关于Cassandra监控常见的指标和大盘缩略预览效果图。这里列举出的指标只是Cassandra常见的一部分关键指标信息,具体请参见下文 关键指标说明,待您安装Cassandra成功后,您将会查看到 可观测监控...

订阅事件通知

云原生内存数据库Tair 已接入云监控平台,支持监控 实例小版本升级、实例主备切换、实例迁移 等重要的系统事件。您可以订阅相关事件,当资源的系统事件达到报警条件时,云监控会自动通知联系人。背景信息 云监控(CloudMonitor)是针对阿里...

ECS系统事件概述

实现自动化运维 在ECS控制台展示的系统事件均定义了事件状态,方便区分相应系统运维任务的执行情况,而且系统事件产生时及状态变化时会上报至云监控,方便您进一步根据自身需要搭建事件驱动的自动化运维体系。更多事件状态的信息,请参见 ...

常见问题概述

本章节汇总了使用ARMS应用监控时的常见问题。手动安装Agent相关 如何排查手动安装探针失败的问题?如何排查ARMS探针日志错误?如何支持单机多实例?ACK应用安装Agent相关 如何安装ack-onepilot和卸载arms-pilot 为什么ACK集群应用安装探针...

产品优势

可观测监控 Prometheus 版 与开源Prometheus对比 优势对比项 阿里云 可观测监控 Prometheus 版 开源Prometheus 购买资源和系统搭建 阿里云全托管 自行购买相关资源并部署系统 运维成本 免运维 日常自行运维 高可用性 支持采集存储组件多...

产品优势

可观测监控 Prometheus 版 与开源Prometheus对比 优势对比项 阿里云 可观测监控 Prometheus 版 开源Prometheus 购买资源和系统搭建 阿里云全托管 自行购买相关资源并部署系统 运维成本 免运维 日常自行运维 高可用性 支持采集存储组件多...

告警规则指标说明

本文介绍ARMS应用监控告警规则中各类型的指标说明,所有告警指标的最小时间颗粒度为1分钟。JVM监控 说明 以下JVM指标说明仅为参考,JVM相关描述以JVM官方文档为准。指标说明 指标名称 单位 是否为常用指标 指标说明 JVM FullGC次数(瞬时值...

可观测性的设计原则

可观测性设计是指为了更好地监控、分析和管理系统运行状态而进行的设计。在云原生、微服务等技术越发流行的今天,系统的可观测性变得越来越复杂。云上的可观测性主要从监控指标、链路追踪、日志记录、监控看板和事件告警五大方面来进行设计...

什么是云监控

使用云监控,不但可以帮助您提升系统服务可用时长,还可以降低企业IT运维监控成本。云监控通过提供跨云服务和跨地域的应用分组管理模型和报警模板,帮助您快速构建支持几十种云服务、管理数万实例的高效监控报警管理体系。云监控用于监控各...

使用Prometheus监控Nginx Ingress网关

说明 单击该卡片,在弹出的面板中您可以看到关于Nginx Ingress网关监控常见的指标和大盘缩略预览效果图。这里列举出的指标只是常见的一部分指标信息,具体请参见下文 Nginx Ingress网关监控指标模型。待您安装Nginx Ingress网关监控成功后...

使用Prometheus监控Nginx Ingress网关

说明 单击该卡片,在弹出的面板中您可以看到关于Nginx Ingress网关监控常见的指标和大盘缩略预览效果图。这里列举出的指标只是常见的一部分指标信息,具体请参见下文 Nginx Ingress网关监控指标模型。待您安装Nginx Ingress网关监控成功后...

如何通过阿里云注册集群和Prometheus...多云容器集群监控

Prometheus可有效监控系统层指标、应用层指标、业务层指标等,采集监控指标后进行存储,同时结合Grafana可实现监控指标的展示和告警等。Prometheus和Grafana结合的方案可有效进行容器集群监控指标采集、存储、展示、告警等,能够有效帮助...

如何通过阿里云注册集群和Prometheus...多云容器集群监控

Prometheus可有效监控系统层指标、应用层指标、业务层指标等,采集监控指标后进行存储,同时结合Grafana可实现监控指标的展示和告警等。Prometheus和Grafana结合的方案可有效进行容器集群监控指标采集、存储、展示、告警等,能够有效帮助...

概览

智能阈值报警是针对云监控中的云资源实例的监控指标推出的智能报警功能,它自动适配并拟合监控指标的历史数据,展示报警阈值边界,发现监控指标突增或突降的异常行为,为您业务的稳定性提供保障。什么是智能阈值 智能阈值基于机器学习算法...

访问控制概述

权限策略 类型 说明 AliyunARMSFullAccess 系统 应用实时监控服务ARMS的完整权限 AliyunARMSReadOnlyAccess 系统 应用实时监控服务ARMS的只读权限 重要 为了实现对ARMS所有功能的只读权限,添加 AliyunARMSReadOnlyAccess 权限策略外,还...

访问控制概述

权限策略 类型 说明 AliyunARMSFullAccess 系统 应用实时监控服务ARMS的完整权限 AliyunARMSReadOnlyAccess 系统 应用实时监控服务ARMS的只读权限 重要 为了实现对ARMS所有功能的只读权限,添加 AliyunARMSReadOnlyAccess 权限策略外,还...

访问控制概述

权限策略 类型 说明 AliyunARMSFullAccess 系统 应用实时监控服务ARMS的完整权限 AliyunARMSReadOnlyAccess 系统 应用实时监控服务ARMS的只读权限 重要 为了实现对ARMS所有功能的只读权限,添加 AliyunARMSReadOnlyAccess 权限策略外,还...

接入外部报警

接入外部报警是指外部系统(非云监控)通过云监控的报警渠道进行报警。您可以通过云监控提供的报警服务调用地址,实现该功能。前提条件 请确保您已创建报警联系组。具体操作,请参见 创建报警联系组。操作步骤 登录 云监控控制台。在左侧...

故障隔离

故障隔离是在服务实例出现故障时,实现实例级别的精细化摘流隔离,使故障影响范围更小,提高服务的可用性。添加故障隔离规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障隔离 页签。单击...

使用系统事件报警

监控集中管理各云产品的系统事件和自定义事件。您可以为云产品的系统事件设置报警规则,当异常发生时,您可以及时收到报警通知,便于快速分析并定位问题。本文为您介绍创建和调试系统事件报警规则的方法。背景信息 云监控支持的事件类型...

管理事件订阅(推荐)

当资源的系统事件或监控指标达到报警条件时,云监控自动发送原始报警通知给报警联系人。您可以通过事件订阅,对报警通知进行定制化处理,例如:订阅系统事件或阈值事件、对报警进行合并降噪、升级报警联系组、自定义报警通知方式、将报警...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

基本概念

报警服务 您可以对主机监控中的监控项、站点监控中的探测点、云产品监控中的实例和自定义监控中的监控项设置报警规则。当监控项满足报警规则时,发送报警通知。监控项 您设置或系统默认的监控数据类型。例如:云服务器ECS的CPU使用率、内存...

管理系统事件报警规则(旧版)

监控集中管理各云产品的系统事件和自定义事件。您可以为云产品的系统事件设置报警规则,当异常发生时,您可以及时收到报警通知,便于快速分析并定位问题。背景信息 说明 旧版系统事件报警规则功能已不再升级,功能会逐步下线,建议您使用...

概览

本文为您介绍站点监控的含义、典型应用场景和监控类型。站点监控是一款定位于网络探测的监控产品,主要用于通过遍布全国的探测点,发送模拟真实用户访问的探测请求,监控全国各省市运营商网络终端用户到您服务站点的访问情况。计费说明 当...

访问控制概述

权限策略 类型 说明 AliyunARMSFullAccess 系统 应用实时监控服务ARMS的完整权限 AliyunARMSReadOnlyAccess 系统 应用实时监控服务ARMS的只读权限 重要 为了实现对ARMS所有功能的只读权限,添加 AliyunARMSReadOnlyAccess 权限策略外,还...

常见问题

本章节汇总了使用ARMS告警管理监控常见问题。本页目录 ARMS Prometheus监控新旧版本告警规则有何不同?指定了新的通知策略,仍然收到了旧的告警通知?为什么配置了告警规则的通知策略,告警还是发给我了?为什么通知策略中出现了标签为_...

访问控制概述

权限策略 类型 说明 AliyunARMSFullAccess 系统 应用实时监控服务ARMS的完整权限 AliyunARMSReadOnlyAccess 系统 应用实时监控服务ARMS的只读权限 重要 为了实现对ARMS所有功能的只读权限,添加 AliyunARMSReadOnlyAccess 权限策略外,还...

访问控制概述

权限策略 类型 说明 AliyunARMSFullAccess 系统 应用实时监控服务ARMS的完整权限 AliyunARMSReadOnlyAccess 系统 应用实时监控服务ARMS的只读权限 重要 为了实现对ARMS所有功能的只读权限,添加 AliyunARMSReadOnlyAccess 权限策略外,还...

访问控制概述

权限策略 类型 说明 AliyunARMSFullAccess 系统 应用实时监控服务ARMS的完整权限 AliyunARMSReadOnlyAccess 系统 应用实时监控服务ARMS的只读权限 重要 为了实现对ARMS所有功能的只读权限,添加 AliyunARMSReadOnlyAccess 权限策略外,还...

访问控制概述

权限策略 类型 说明 AliyunARMSFullAccess 系统 应用实时监控服务ARMS的完整权限 AliyunARMSReadOnlyAccess 系统 应用实时监控服务ARMS的只读权限 重要 为了实现对ARMS所有功能的只读权限,添加 AliyunARMSReadOnlyAccess 权限策略外,还...

集群监控告警说明

集群监控 进入【集群管理-集群监控】可以查看集群整体的监控大盘。上面4个选项卡可以切换图表,分别查看:集群监控大盘、集群巡检结果、底座组件监控、Yoda PV存储监控。集群告警 集群告警策略 集群告警主要包含所有K8s内核以及集群节点...

故障管理

系统软件故障:包括操作系统死机、数据库的各类故障。硬件故障:包括硬盘、网卡损坏。相关设备故障:包括UPS失效引起的电力中断。自然灾害,包括洪水、火灾、地震。这里以阿里集团为例。为降低故障的影响,阿里集团故障管理体系从整体体系...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云监控 视图计算 轻量应用服务器 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用