设计原则

因此,数据容灾对于企业来说是非常必要的,数据灾备是企业保护核心数据的重要手段,能有效降低勒索病毒、系统故障、自然灾害和运维事故导致的数据丢失和损坏问题,同时满足行业安全和合规要求,可以保障企业的正常运行和稳定发展。...

什么是容器报警演练

AHAS容器演练中的监控报警验证功能通过模拟事件触发,验证集群监控报警设置是否正常可用,并统计报警成功率、以及事件触发到监控报警的平均延迟,从而验证Kubernetes集群监控报警系统的有效性。报警演练功能特性 无损。不同于其他故障演练...

产品简介

集成配置 简单、方便的实现上游监控系统的快速集成 支持简单、快速集成现有常用的监控系统。接收到监控源发送的报警记录会标为“已接收”报警;监控源配置的报警规则与业务不符时,可以临时禁用监控源来避免无效的报警&事件;已集成的密钥...

监控与日志

系统事件监控 阿里云云监控服务的事件监控功能自动汇集云产品故障、运维事件,并为您提供各云产品系统事件的统一查询和统计入口,使您明确得知其使用状态。通过应用分组进行资源分类后,云产品产生的系统事件会自动与组中资源关联,帮助您...

什么是可观测监控 Prometheus 版

阿里云 可观测监控 Prometheus 版 全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供全面托管的Prometheus服务。说明 Prometheus是一套开源的监控报警系统。主要特点包括多维数据模型、灵活...

什么是可观测监控 Prometheus 版

阿里云 可观测监控 Prometheus 版 全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘,且提供全面托管的Prometheus服务。说明 Prometheus是一套开源的监控报警系统。主要特点包括多维数据模型、灵活...

功能概览

风险发现 系统提供风险发现相关功能项如下:功能分类 功能名称 功能说明 监控 业务监控 支持对应用业务日志进行灵活切割。按业务维度聚合数据,提供一套完整的业务实时分析能力。主要面向个性化的非标业务监控场景,比如交易量、放贷量等。...

查看系统事件

事件监控为您提供各云产品系统事件的统一查询和统计入口,使您及时得知各云产品的运行状态,并接收报警通知,便于您在业务故障时,快速分析并定位问题。背景信息 云监控支持各云产品的系统事件,请参见 云产品系统事件。操作步骤 登录 云...

版本升级说明

监控插件可以采集主机操作系统监控数据,对主机监控有重要价值。云监控插件将不断升级版本,以便给您带来更好的监控体验。升级原因 云监控插件版本的升级原因如下:云监控插件会一直迭代新版本,从而增加新特性、修复稳定性问题和优化...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障的发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

查看系统事件

事件监控为您提供各云产品系统事件的统一查询和统计入口,使您及时得知各云产品的运行状态。便于您在业务故障时,快速分析并定位问题。背景信息 云监控支持各云产品的系统事件,请参见 云产品系统事件。操作步骤 登录 云监控控制台。在左侧...

监控与日志

系统事件监控 阿里云云监控服务的事件监控功能自动汇集云产品故障、运维事件,并为您提供各云产品系统事件的统一查询和统计入口,使您明确得知其使用状态。通过应用分组进行资源分类后,云产品产生的系统事件会自动与组中资源关联,帮助您...

Python SDK调用示例

本文以Python SDK为例,为您介绍如何通过OpenAPI调用DescribeMetricList接口查询云产品的监控数据。步骤一:查看OpenAPI文档 通过阅读 API概览 得知,查询云产品监控数据的OpenAPI为 DescribeMetricList。请您根据文档,了解调用该接口需要...

围绕混沌工程的平台实践

AHAS Chaos除了提供一些基础的系统指标如CPU、内存、网络、磁盘之外,还集成了阿里云的ARMS,如果您的应用已经接入ARMS就可以在AHAS Chaos里直接观测到对应的指标,后续也将会集成更多的监控系统,功能如下图所示。更多信息,请参见 创建...

概览

应用场景 您可以使用主机监控功能查询主机的资源使用情况和故障指标。主机监控的应用场景如下:混合云监控解决方案 主机监控通过云监控插件采集您主机的监控项。该插件支持安装在非阿里云主机上,解决您云上和云下双重环境的基础监控问题。...

使用云监控功能监控网站环境(部署于ECS实例)

设置合理的监控可以让您实时了解系统业务的运行情况,并能帮助您提前发现问题,避免可能会出现的业务故障。同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。前提条件 在开始设置云监控前,您需要...

ECS系统事件概述

监控系统事件 为保障ECS实例上业务运行的稳定性以及实现自动化运维,建议您设置事件通知来监听底层环境的变化。设置事件通知后,系统会推送消息到您设置的通知方式。通过云监控配置报警规则,推送事件通知,请参见 设置事件通知。通过钉钉...

文件存储CPFS监控概述

通过查看文件存储CPFS文件系统的容量监控和性能信息,您可以了解文件系统的存储容量使用情况和读写吞吐、读写IOPS等情况。通过为文件系统的重要监控指标设置报警规则,您可以及时获知指标异常并快速处理异常。本文介绍文件存储CPFS支持的...

故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...

订阅事件通知

云原生内存数据库Tair 已接入云监控平台,支持监控 实例小版本升级、实例主备切换、实例迁移 等重要的系统事件。您可以订阅相关事件,当资源的系统事件达到报警条件时,云监控会自动通知联系人。背景信息 云监控(CloudMonitor)是针对阿里...

监控与日志

性能监控数据 在 性能监控 页面,选择文件系统类型和目标文件系统ID,查看该文件系统的读写IOPS、读写延迟、读写吞吐等监控数据。容量监控数据 在容量监控页面,选择文件系统类型和目标文件系统ID,查看该文件系统的存储空间使用量、文件数...

什么是云监控

使用云监控,不但可以帮助您提升系统服务可用时长,还可以降低企业IT运维监控成本。云监控通过提供跨云服务和跨地域的应用分组管理模型和报警模板,帮助您快速构建支持几十种云服务、管理数万实例的高效监控报警管理体系。云监控用于监控各...

查看事件与监控信息

服务实例创建完成后,您可以在计算巢控制台查看服务实例的事件和监控信息,本文向您介绍如何查看服务实例事件和监控信息。操作步骤 登录 计算巢控制台。在左侧导航栏中,单击 服务实例管理。根据您创建的服务实例类型,单击对应的服务类型...

如何处理云监控识别多台相同镜像主机异常问题?

不同操作系统主机的处理方法如下:Windows 在注册表中删除目录 计算机\HKEY_LOCAL_MACHINE\SOFTWARE\WOW6432Node\cloudmonitor 中的键值对 serial_number。Linux 删除目录/etc/cloudmonitor 中的文件 serial_number.properties。

故障隔离

故障隔离是在服务实例出现故障时,实现实例级别的精细化摘流隔离,使故障影响范围更小,提高服务的可用性。添加故障隔离规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障隔离 页签。单击...

概览

智能阈值报警是针对云监控中的云资源实例的监控指标推出的智能报警功能,它自动适配并拟合监控指标的历史数据,展示报警阈值边界,发现监控指标突增或突降的异常行为,为您业务的稳定性提供保障。什么是智能阈值 智能阈值基于机器学习算法...

故障应急协同

故障通告及更新 基于7x24监控值班工作特性,对于业务异常达到故障等级时,以用户定制的(语音、短信、IM)的方式在约定时间内将故障影响信息以及处理进展通知给对应的接收人/组,并持续更新直至故障结束。故障应急协同群 故障发生后,可以...

Spring Boot应用如何快速接入Prometheus监控

在使用Spring Boot应用过程中,为了对系统的状态进行持续地观测,您可以将Spring Boot应用接入Prometheus监控。本文介绍如何将Spring Boot应用快速接入Prometheus监控。背景信息 对于开发者而言,大部分传统SSM结构的MVC应用背后的糟糕体验...

Spring Boot应用如何快速接入Prometheus监控

在使用Spring Boot应用过程中,为了对系统的状态进行持续地观测,您可以将Spring Boot应用接入Prometheus监控。本文介绍如何将Spring Boot应用快速接入Prometheus监控。背景信息 对于开发者而言,大部分传统SSM结构的MVC应用背后的糟糕体验...

概览

本文为您介绍站点监控的含义、典型应用场景和监控类型。站点监控是一款定位于网络探测的监控产品,主要用于通过遍布全国的探测点,发送模拟真实用户访问的探测请求,监控全国各省市运营商网络终端用户到您服务站点的访问情况。计费说明 当...

集群监控告警说明

集群监控 进入【集群管理-集群监控】可以查看集群整体的监控大盘。上面4个选项卡可以切换图表,分别查看:集群监控大盘、集群巡检结果、底座组件监控、Yoda PV存储监控。集群告警 集群告警策略 集群告警主要包含所有K8s内核以及集群节点...

NAS监控概述

通过查看NAS文件系统监控信息,您可以了解文件系统的使用情况。通过对文件系统的重要监控指标设置报警规则,您可以及时获知指标异常并快速处理异常。本文介绍NAS支持的监控项以及其报警规则说明。背景信息 云监控(CloudMonitor)是一项...

故障管理

故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...

订阅事件通知

数据传输服务DTS(Data Transmission Service)已接入云监控平台,您可以通过事件订阅对重要的事件设置定制化的报警通知,让您及时了解事件的发生与进展,帮助您实时掌握事件动态,便于您在业务故障时快速分析并定位问题。背景信息 云监控...

管理事件订阅(推荐)

当资源的系统事件或监控指标达到报警条件时,云监控自动发送原始报警通知给报警联系人。您可以通过事件订阅,对报警通知进行定制化处理,例如:订阅系统事件或阈值事件、对报警进行合并降噪、升级报警联系组、自定义报警通知方式、将报警...

产品优势

监控是阿里巴巴集团多年来监控技术研究积累的成果,结合阿里云计算平台强大的数据分析能力,为您提供云产品监控、站点监控和主机监控等功能,为您的云产品保驾护航。即开即用 云监控无需您购买和开通。当您注册阿里云账号后,自动开通云...

告警规则指标说明

本文介绍ARMS应用监控告警规则中各类型的指标说明,所有告警指标的最小时间颗粒度为1分钟。JVM监控 说明 以下JVM指标说明仅为参考,JVM相关描述以JVM官方文档为准。指标说明 指标名称 单位 是否为常用指标 指标说明 JVM FullGC次数(瞬时值...

如何处理云监控插件异常停止问题?

当某个主机的云监控插件的状态为 已停止 时,云监控将不能对该主机进行监控。您需要判断该主机的云监控插件的停止原因,并恢复其运行状态。问题分析 云监控插件默认每3分钟一次心跳。如果15分钟没有心跳,则主机判断插件已停止运行。云监控...

FAQs

GTM是集成了DNS的智能解析功能、云监控的应用服务监控功能,为客户输出不同网络或地区用户访问实现就近接入、应用服务运行状态的健康检查、故障自动切换等能力。GTM 是现有云解析DNS中全局负载均衡(GSLB)的升级和替代产品,GTM比GSLB支持...

什么是应用监控

ARMS应用监控是一款应用性能管理(Application Performance Management,简称APM)产品。您无需修改代码,只需为应用安装一个探针,ARMS就能够对应用进行全方位监控,帮助您全面掌控应用运行状态,快速定位出错接口和慢接口,洞察性能瓶颈...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云监控 视图计算 负载均衡 轻量应用服务器 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用