监控系统性能需求-监控系统性能需求文档介绍内容-阿里云

可观测

变更观测是指在变更执行过程中，任何因变更触发的且预期外的线上业务异常（含监控、报警、日志等）均能实时被变更执行人感知的能力。是变更人主动并及时发现问题，降低重大故障影响半径的有效方式之一。变更观测是变更执行人的基础工具之一...

如何使用Prometheus监控Kafka

每套完整的自建监控系统都需要安装并配置Prometheus、Grafana、AlertManager等，其过程复杂、实施周期长。开源Kafka JMX Agent 在某些场景下占用CPU高，对自建Kafka业务有一定干扰。对于阿里云消息队列Kafka（简称阿里云Kafka），自建...

如何使用Prometheus监控Kafka

每套完整的自建监控系统都需要安装并配置Prometheus、Grafana、AlertManager等，其过程复杂、实施周期长。开源Kafka JMX Agent 在某些场景下占用CPU高，对自建Kafka业务有一定干扰。对于阿里云消息队列Kafka（简称阿里云Kafka），自建...

全局监控

在压测中和压测结束后，您可以通过全局监控查看PTS的业务监控以及施压机监控。如果您配置了全链路监控的链路追踪和云产品监控，监控大盘也会展示应用监控和各云产品的监控信息。业务监控吞吐量、成功率和响应时长是压测需要关注的三个黄金...

功能特性

更重要的是，监控的过程是发现系统瓶颈的过程，监控数据是性能基线管理、容量规划甚至是高可用架构的重要基础。云资源监控 PTS压测报告分析 PTS压测结束后，系统会自动获取压测过程中的数据，例如压测场景指标、业务详情数据、监控详情数据...

2023年

【计费变更】ARMS上线新版计费模式应用监控 eBPF 版应用监控 eBPF 版新增全新上线应用监控 eBPF 版，基于eBPF技术提供零入侵、语言无关、高性能的应用可观测体验。什么是阿里云应用监控 eBPF 版应用监控探针新增支持Spring Boot 3...

2021年

v2.8.2.1 应用监控 Trace Explorer ARMS应用监控的链路分析Trace Explorer功能是基于已存储的全量链路明细数据，自由组合筛选条件与聚合维度进行实时分析，可以满足不同场景的自定义诊断需求。更多信息，请参见调用链分析。2021-11-19 ...

区间检测

当数据点的异常突变超出预设的上下边界时，系统将生成区间异常检测事件，这种检测主要用于监控趋势稳定的数据或指标。应用场景应用性能监控：网站管理员可以使用此功能来监测站点的响应时间、请求速度等黄金指标。当某个服务的响应时间...

管理共享存储

如果您有更多的存储需求，可以为集群挂载新的存储资源，来缓解单个文件系统在性能、容量等方面的压力，支持更大规模集群的计算任务。本文介绍在创建E-HPC集群后，如何为集群挂载新的存储资源，以及如何卸载存储资源。前提条件已创建存储...

高级监控

应用实时监控服务ARMS（Application Real-Time Monitoring Service）是一款阿里云应用性能管理APM（Application Performance Management）类监控产品。云数据库MongoDB可以无缝对接ARMS应用监控，您在云数据库MongoDB控制台上的实例可以...

功能特性

ARMS应用监控是一款应用性能管理（Application Performance Management，简称APM）产品。您无需修改代码，只需为应用安装一个探针，ARMS就能够对应用进行全方位监控，帮助您全面掌控应用运行状态，快速定位出错接口和慢接口，洞察性能瓶颈...

诊断服务端报错问题

某系统已运行了很长时间，但是不想关心遗留的异常，只想知道今天和昨天相比、发布后和发布前相比多了哪些异常。查看一个异常对应的Web请求和相关参数。客服人员提供了一个用户下单失败的订单号，分析该用户下单失败的原因。解决方案为应用...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题，可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题，更直观地了解调用链分析的用法与价值。背景...

添加并使用日志服务SLS数据源

通过Grafana强大的实时数据分析和可视化功能，您可以实时监控SLS的日志数据，以便优化系统性能。本文介绍如何将SLS日志数据同步至Grafana 8.2.x中，并使用SLS数据源创建大盘面板。前提条件已创建SLS Project。具体操作，请参见创建项目...

2023年

管理Prometheus实例支持MicroMeter数据集成新增 MicroMeter可收集更多的应用程序度量数据，例如请求处理时间、线程池大小、内存使用情况等，这些数据可以为Prometheus提供更详细的监控数据，帮助用户更精细地了解系统运行情况和性能瓶颈...

如何使用Prometheus监控Cassandra

本文介绍如何使用Prometheus监控Cassandra。前提条件已创建 ECS类型的Prometheus实例，具体操作，请参见 Prometheus实例 for ECS。使用限制目前仅Prometheus实例 for ECS类型实例支持该组件接入。步骤一：部署Cassandra JMX Agent 您需要...

如何使用Prometheus监控Cassandra

本文介绍如何使用Prometheus监控Cassandra。前提条件已创建 ECS类型的Prometheus实例，具体操作，请参见 Prometheus实例 for ECS 使用限制目前仅Prometheus实例 for ECS类型实例支持该组件接入。步骤一：部署Cassandra JMX Agent 您需要...

阈值检测

在告警规则页面选择创建告警规则>创建应用性能监控ARMS告警规则。在创建应用监控告警规则页面自定义告警名称，并选择告警检测类型为阈值检测。说明配置区间检测的操作，请参见区间检测。在告警对象区域根据需求选择对应的告警...

如何使用Prometheus监控SNMP

1.3.6.1.2.1.31.1.1.1.4 sysUpTime 系统最近一次re-initialized后的时间无 SNMP监控大盘可观测监控 Prometheus 版默认提供了SNMP Status和SNMP Interface Detail两个大盘，主要针对if_mib场景，监控网络流量等信息。SNMP Status 主要...

区间检测

当数据点的异常突变超出预设的上下边界时，系统将生成区间异常检测事件，这种检测主要用于监控趋势稳定的数据或指标。应用场景应用性能监控：网站管理员可以使用此功能来监测站点的响应时间、请求速度等黄金指标。当某个服务的响应时间...

如何使用Prometheus监控SNMP

1.3.6.1.2.1.31.1.1.1.4 sysUpTime 系统最近一次re-initialized后的时间无 SNMP监控大盘可观测监控 Prometheus 版默认提供了SNMP Status和SNMP Interface Detail两个大盘，主要针对if_mib场景，监控网络流量等信息。SNMP Status 主要...

功能发布记录

2018-09-27 配置自动伸缩策略支持GPU性能监控新增 E-HPC支持GPU性能监控。2018-09-27 查看集群性能扩容集群优化扩容集群支持选择不同类型的实例，无需和创建集群时保持一致。2018-07-12 扩容集群提交作业新增控制台支持提交作业。...

新功能发布记录

2021-07-30 全部地域接入外部报警 2021年05月功能名称功能描述发布时间发布地域相关文档监控大盘线下IDC、阿里云产品和其他云厂商产品的监控数据接入云监控后，您可以为监控数据创建监控大盘，通过监控大盘查看指定监控指标的监控...

区间检测

当数据点的异常突变超出预设的上下边界时，系统将生成区间异常检测事件，这种检测主要用于监控趋势稳定的数据或指标。应用场景应用性能监控：网站管理员可以使用此功能来监测站点的响应时间、请求速度等黄金指标。当某个服务的响应时间...

弹性裸金属服务器概述

兼容多种专有云弹性裸金属服务器可以进一步解决您对高性能计算的强需求，更好地帮助您搭建新型混合云。弹性裸金属服务器不仅具有虚拟机的灵活性和弹性，同时具备物理机的一切特性和优势，因此也具备再次虚拟化的能力，线下的私有云均可...

Arthas诊断

在 Arthas监控区域，打开 Arthas开关，根据需求选择是否仅对部分IP进行Arthas诊断，并添加目标IP。单击保存。查看Arthas诊断信息登录 ARMS控制台，在左侧导航栏选择应用监控>应用列表。在应用列表页面顶部选择目标地域，然后单击目标...

概述

性能度量了系统在单元环境内承载工作负载的效率，系统性能通常可以由 QPS、并发和RT（响应时间）等典型指标来衡量。在传统 IT 环境中，系统的容量评估和规划是系统设计的重要环节，通常会基于系统对峰值负载表现出来的性能承载能力来给系统...

Arthas诊断

在自定义配置页签的 Arthas监控区域，打开 Arthas开关，根据需求选择是否仅对部分IP进行Arthas诊断，并添加目标IP。在自定义配置页签左下角单击保存。查看Arthas诊断信息登录 ARMS控制台，在左侧导航栏选择应用监控>应用列表。在 ...

如何使用Prometheus监控MySQL

可观测监控 Prometheus 版针对MySQL热点指标提供了多个默认的Prometheus告警规则，您还可以根据业务需求新增告警规则。创建Prometheus告警规则的具体操作，请参见 Prometheus告警规则。说明关于MySQL热点指标的说明，请参见下文关键指标...

用ARMS前端监控诊断JS错误

大部分前端监控会通过 PerformanceTiming 对象来获取完整的页面加载耗时信息，这将缺失页面静态资源的加载情况，导致无法深入定位性能瓶颈。ARMS前端监控可利用Source Map还原代码真正的错误位置，还可以利用用户行为回溯功能还原JS错误...

通过脚本录制断言特定业务逻辑的执行结果

您可以通过创建浏览器探测任务，模拟用户在不同地域、不同网络环境下通过浏览器访问探测目标，观测探测目标在浏览器访问时的稳定性和性能。新创建的浏览器探测任务的状态默认为运行中，达到探测频率后，该任务自动执行。本文以淘宝网站的...

使用前后端链路追踪诊断API错误原因

在前端监控中，即便已知API的请求耗时，也无从知晓准确的网络传输性能、后端服务的调用链路及性能，因而无法快速准确地排查应用API问题。前后端链路追踪功能可以解决此类问题，它会将API请求从前端发出到后端调用的链路串联起来，真实还原...

功能特性

快速发现分布式应用架构下的性能瓶颈，缩短错/慢调用根因定位耗时，提高全栈开发与诊断效率。功能集功能功能描述参考文档应用接入接入Java应用支持通过OpenTelemetry、Skywalking、Jaeger、Zipkin上报Java应用性能数据。通过...

全链路监控配置

在启动压测前，您可以通过全链路监控功能，指定本次压测需要关注的服务端应用和使用到的云产品实例，监控系统的每一个组件和服务以及它们之间的交互，提高系统的性能和稳定性。您可以在压测中和压测报告中，从全局监控大盘以及洞察服务端的...

概览

智能阈值报警是针对云监控中的云资源实例的监控指标推出的智能报警功能，它自动适配并拟合监控指标的历史数据，展示报警阈值边界，发现监控指标突增或突降的异常行为，为您业务的稳定性提供保障。什么是智能阈值智能阈值基于机器学习算法...

可观测性体系概述

借助阿里云Prometheus监控，您无需自行搭建Prometheus监控系统，因此无需关心底层数据存储、数据展示、系统运维等问题。推荐使用阿里云托管版Prometheus（ARMS Prometheus）云产品。适用于所有场景，包括微服务（ServiceMesh）场景、集群...

什么是应用监控

ARMS应用监控是一款应用性能管理（Application Performance Management，简称APM）产品。您无需修改代码，只需为应用安装一个探针，ARMS就能够对应用进行全方位监控，帮助您全面掌控应用运行状态，快速定位出错接口和慢接口，洞察性能瓶颈...

如何退订基础云监控的按量计费和套餐？

如果您仍有日志监控相关需求，建议使用企业云监控中的 SLS日志监控。说明日志监控将于2024年09月14日下线。请您确认是否正在使用自定义监控功能。查看自定义监控的资源消耗，当使用量不为0时，说明正在使用。如果您退订后，该功能将不...

监控突发性能实例

本文介绍如何通过ECS管理控制台查看突发性能实例的CPU使用率和CPU积分，并通过云监控管理控制台设置CPU积分报警规则。前提条件如果您需要设置通知对象，您必须提前创建联系人组。具体操作，请参见创建报警联系人或报警联系组。背景信息 ...

持续剖析

如需排查具体的热点代码逻辑，可以通过重点关注 Self 列或直接查看右侧火焰图中底部的较宽火苗从中定位到高耗时的业务方法，较宽火苗是引发上层耗时高的根源，一般是系统性能的瓶颈所在，您可以重点关注。联系我们如果您在使用应用监控 ...

监控系统 性能需求

新品推荐

监控系统性能需求