可观测性的设计原则

可观测性设计是指为了更监控、分析和管理系统运行状态而进行的设计。在云原生、微服务等技术越发流行的今天,系统的可观测性变得越来越复杂。云上的可观测性主要从监控指标、链路追踪、日志记录、监控看板和事件告警五大方面来进行设计...

性能监控概念

性能监控是指在软件、硬件或系统运行期间对其性能指标进行监测和记录,以便分析和优化系统性能。通过收集和分析性能数据,可以识别系统瓶颈、优化资源分配、提高系统可靠性和稳定性等。性能监控通常包括对系统资源的监控,如CPU、内存、...

前端监控场景

现有的Server端监控系统相对已经很成熟了,而页面加载和页面运行时的状态监控一直比较欠缺。主要原因是对于前端监控的重视不足,认为服务端的监控可以部分替代前端监控,这种想法就导致系统在线上运行时,无法感知用户访问系统时的具体情况...

ARMS统一告警管理最佳实践

为了监控这些复杂的IT环境,企业通常会选择使用异构监控系统,例如Prometheus、Grafana、Zabbix等,以获取更全面的监控数据,以便更地了解其IT基础设施的运行状况和性能表现。然而,这种异构监控系统也带来了一些问题,其中最显着的是告...

什么是ARMS前端监控

现有的服务器端监控系统相对已经很成熟,而页面加载和页面运行时的状态监控一直比较欠缺。例如:无法第一时间获知用户访问您的站点时遇到的错误。各个国家、各个地区的用户访问您的站点的真实速度未知。每个应用内有大量的异步数据调用,而...

操作系统监控

监控通过安装在阿里云主机(ECS实例)和非阿里云主机上的云监控插件,为您采集丰富的操作系统层面的监控指标,您可以为操作系统监控指标设置报警规则。当某个监控指标达到报警条件时,会给您发送报警通知,以便您及时关注其动态。前提...

系统运维工具集SysAK使用说明

除此之外,还实现了许多增强的系统指标,实时监控系统的干扰和抖动等情况。问题诊断:针对负载异常、网络抖动、内存泄露、IO夯、性能异常等情况提供线上诊断功能。同时减少工具的专业性,可操作性强。故障修复:对于非整机异常的问题(例如...

Java应用监控和诊断方案

基于ARMS的应用监控方案 ARMS提供的 应用监控 功能,脱胎于阿里巴巴内部的分布式跟踪与监控系统(内部称为“鹰眼系统”),可以在不修改任何现有代码的情况下帮助网站开发人员和运维人员解决上述问题。调用拓扑图 您可以在ARMS中看到应用的...

使用API查询监控数据

大型企业内部通常有自建的运维监控系统,上云过程中会面临如何将云资源监控数据与已有系统集成的问题。下面本文将为您介绍如何通过云监控接口查询各产品监控数据,从而将阿里云的监控数据与现有系统进行集成。指标类监控数据查询的接口 云...

监控

应用部署成功后,您可以查看监控并配置警报,实时了解系统运行情况。class="reference-link">监控信息 在应用管理列表页,应用名称右侧,单击 管理,进入应用详情页。在应用详情页,单击节点的 监控,进入监控页面。监控页面展示了每个...

Spring Boot应用如何快速接入Prometheus监控

在使用Spring Boot应用过程中,为了对系统的状态进行持续地观测,您可以将Spring Boot应用接入Prometheus监控。本文介绍如何将Spring Boot应用快速接入Prometheus监控。背景信息 对于开发者而言,大部分传统SSM结构的MVC应用背后的糟糕体验...

Spring Boot应用如何快速接入Prometheus监控

在使用Spring Boot应用过程中,为了对系统的状态进行持续地观测,您可以将Spring Boot应用接入Prometheus监控。本文介绍如何将Spring Boot应用快速接入Prometheus监控。背景信息 对于开发者而言,大部分传统SSM结构的MVC应用背后的糟糕体验...

API概览

DescribeMonitoringAgentStatuses 查询云监控插件运行状态 调用DescribeMonitoringAgentStatuses接口查询云监控插件运行状态。ModifyHostInfo 修改非阿里云的主机显示信息 调用ModifyHostInfo接口修改非阿里云的主机显示信息。...

规则管理

自定义监控规则帮助您根据实际业务需求,自定义监控规则,监控任务运行状态或资源使用情况,以便及时发现并处理异常。本文为您介绍如何在规则管理页面自定义报警规则,以及添加钉钉群机器人获取Webhook地址。使用限制 自定义监控规则仅对...

2023年

如何创建跨账号GlobalView实例 支持MicroMeter数据集成 新增 MicroMeter可收集更多的应用程序度量数据,例如请求处理时间、线程池大小、内存使用情况等,这些数据可以为Prometheus提供更详细的监控数据,帮助用户更精细地了解系统运行情况...

发现和排查实例问题

监控控制台的主机监控页的 操作系统监控 页签下展示的运行指标如下:实例计算、存储、网络的资源使用情况,例如CPU使用率、磁盘读写情况、网络收发包数量等。实例内活跃进程的信息。GPU实例的显存使用情况。利用报警服务自动通知 使用云...

可观测性体系概述

借助阿里云Prometheus监控,您无需自行搭建Prometheus监控系统,因此无需关心底层数据存储、数据展示、系统运维等问题。推荐使用阿里云托管版Prometheus(ARMS Prometheus)云产品。适用于所有场景,包括微服务(ServiceMesh)场景、集群...

通过移动端探测目标站点的网络质量

监控通过站点监控的探测点(请求方)模拟最终用户的访问行为,从而获得各地域探测点到目标地址(监控地址)的访问数据。当您希望通过蜂窝网络探测目标站点时,用移动端探测。前提条件 请确保您已创建报警联系人和报警联系人组。具体操作...

如何通过阿里云注册集群和Prometheus...多云容器集群监控

Prometheus可有效监控系统层指标、应用层指标、业务层指标等,采集监控指标后进行存储,同时结合Grafana可实现监控指标的展示和告警等。Prometheus和Grafana结合的方案可有效进行容器集群监控指标采集、存储、展示、告警等,能够有效帮助...

如何通过阿里云注册集群和Prometheus...多云容器集群监控

Prometheus可有效监控系统层指标、应用层指标、业务层指标等,采集监控指标后进行存储,同时结合Grafana可实现监控指标的展示和告警等。Prometheus和Grafana结合的方案可有效进行容器集群监控指标采集、存储、展示、告警等,能够有效帮助...

通过PC端探测目标站点的网络质量

监控通过站点监控的探测点(请求方)模拟最终用户的访问行为,从而获得各地域探测点到目标地址(监控地址)的访问数据。当您希望通过阿里云网络、运营商网络和海外云服务提供商网络探测目标站点时,用PC端探测。前提条件 请确保您已创建...

告警规则指标说明

异常监控 指标说明 指标名称 单位 是否为常用指标 指标说明 异常发生次数 无 是 在软件系统运行过程中发生的各种异常的次数,如空指针异常、数组越界异常、IO异常等。可以根据该指标判断调用堆栈是否抛错,从而判断是否存在应用调用异常。...

查看仪表盘

水位监控 用于实时可视化展示Kubernetes中资源的水位情况,包括Pod运行数、CPU总数、文件系统使用量等。运行监控 用于实时可视化展示Kubernetes中处于运行状态的资源信息,包括Deployment运行数量、Daemonset运行数量等。核心组件监控 ...

ModifyAlarm-修改报警任务

取值范围:system:使用云监控系统指标。custom:使用上报到云监控的自定义指标。system Period integer 否 统计监控项数据的周期,单位为秒。取值范围:15。60。120。300。900。说明 15 秒的统计周期仅适合监控 ECS 类型伸缩组时,使用云...

Python SDK调用示例

本文以Python SDK为例,为您介绍如何通过OpenAPI调用DescribeMetricList接口查询云产品的监控数据。步骤一:查看OpenAPI文档 通过阅读 API概览 得知,查询云产品监控数据的OpenAPI为 DescribeMetricList。请您根据文档,了解调用该接口需要...

JVM监控内存详情说明

ARMS获取JVM内存详情的原理 ARMS应用监控探针通过JDK提供的MemoryMXBean获取JVM运行期间内存详情,受限于MemoryMXBean的运行机制,目前ARMS的JVM内存监控能力还不能覆盖Java进程占用的所有内存区域。更多详情请参见Java官方网站的 ...

智能监控概述

智能监控功能支持您通过配置自定义规则,实现对任务运行状态及资源使用情况的监控;通过配置智能基线,保障复杂依赖场景下重要数据在预期时间内正常产出。同时,您还可以根据业务需求自定义资源组运维规则,实现资源组的自动化运维。功能...

监控大盘

当您需要自定义数据库监控或者比较不同实例的运行情况时,通过监控大盘,您可以自由选择监控的实例和指标,实现自定义指标监控、不同实例间的性能对比,以及进行多指标联动分析,从而全面把握数据库的健康状况。前提条件 RDS PostgreSQL...

2023年

如何创建跨账号GlobalView实例 支持MicroMeter数据集成 新增 Micrometer可收集更多的应用程序度量数据,例如请求处理时间、线程池大小、内存使用情况等,这些数据可以为Prometheus提供更详细的监控数据,帮助用户更精细地了解系统运行情况...

2021年

v2.8.1.1 2021年07月 模块 功能名称 功能概述 发布时间 支持地域 版本号 容器监控 新增国际地域 阿里云容器监控新增以下6个地域:新加坡 印度尼西亚(雅加达)日本(东京)美国(硅谷)美国(弗吉尼亚)德国(法兰克福)容器监控支持的所有...

SysOM内核层容器监控

SysOM(System Observer Monitoring)是一种在操作系统内核层进行容器监控的方法。基于SysOM操作系统层的容器监控功能,容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)提供独特的操作系统内核层的容器监控可观测能力。该...

概览

智能阈值报警是针对云监控中的云资源实例的监控指标推出的智能报警功能,它自动适配并拟合监控指标的历史数据,展示报警阈值边界,发现监控指标突增或突降的异常行为,为您业务的稳定性提供保障。什么是智能阈值 智能阈值基于机器学习算法...

如何处理云监控插件异常停止问题?

查看插件的运行状态和日志 重要 云监控仅支持通过管理员账号权限(Linux操作系统使用root用户,Windows操作系统使用Administrator用户)操作云监控插件。使用管理员账号具有一定风险,如果操作不当可能导致系统稳定性问题或数据安全问题,...

监控与日志

您可以通过VPN网关的系统事件和监控指标信息来判断系统是否按照预期运行,同时您也可以对系统事件和监控指标设置报警规则,以便在系统运行异常时,您可以收到报警通知,及时处理问题。系统事件监控 阿里云云监控服务的事件监控功能自动汇集...

计费相关配置问题

本文梳理了常见的应用监控计费问题,帮助您更准确地理解计费规则。同一应用安装于多台电脑上如何计费?开通应用监控基础版后,可以看到哪些数据,是一直免费的吗?如何调整应用监控数据存储周期?如何调整调用链采样率?开通应用监控专家版...

监控与日志

您可以通过云企业网的系统事件和监控指标信息来判断系统是否按照预期运行,同时您也可以对系统事件和监控指标设置报警规则,以便在系统运行异常时,您可以收到报警通知,及时处理问题。系统事件监控 阿里云云监控服务的事件监控功能自动...

通过脚本录制断言特定业务逻辑的执行结果

新创建的浏览器探测任务的状态默认为 运行中,达到探测频率后,该任务自动执行。本文以淘宝网站的研发人员通过脚本录制断言该网站在谷歌(Chrome)浏览器上的加载完整性为例进行介绍。前提条件 请确保您已开通网络分析与监控。具体操作,请...

调用链采样模式选择

对于绝大多数的分布式系统,不是每一条调用链都值得被可观测平台记录,因为其中包含大量重复的,低关注度的信息。因此需要引入采样技术降低整体可观测成本,并过滤对用户没有帮助的噪音。调用链采样的基本原则是优先记录您最关心、最有可能...

作业超时监控告警

MaxCompute支持通过配置阈值报警规则,监控作业运行时长。当作业运行超时后,系统会将报警信息发送至报警联系人,助力及时识别异常作业,提升运维效率。本文为您介绍作业超时报警的监控指标、配置方法及处理报警方式。前提条件 在配置作业...

基本概念

概念 说明 Exporter 和监控对象伴生运行的应用。通常用于将监控对象存量的监控数据转换成 可观测监控 Prometheus 版 可以识别的OpenMetrics数据格式,暴露指标。目前有100+官方或者三方Exporter可供使用,请参见 Exporter详情。Job 一组...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云监控 轻量应用服务器 视图计算 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用