单实例快速恢复

该方案为当前每个实例内部默认启用,当系统发生故障时,无需手工运维介入,系统可以自动恢复。在恢复期间,如果查询算子需要访问恢复中的节点,则查询会立即失败。节点恢复速度在一分钟左右,当表数量明显增加时,恢复时间会更长。Hologres...

设计方案

监控大屏:监控大屏是指将所有系统的运行情况以图形化的方式展示在屏幕上,以便实时监控系统健康状况。在发生故障时,监控大屏可以快速反应故障情况,并提供相关数据,为故障排查及处理提供依据。风险预测:风险预测是指在发生故障前,通过...

应用场景

电力化工及工业制造监控分析 传统电力化工以及工业制造行业需要通过实时的监控系统进行设备状态检测,故障发现以及业务趋势分析。设备通过工业接口协议将自身状态数据和生产业务数据接入工业设备网关,然后通过 MQTT 协议发送到物联网平台...

同城多活架构实践

在杭州单元格B的商品应用发生故障的情况下,可使用MSHA切流功能将流量全部切换到另外的单元格,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换...

设计原则

数据容灾是指在数据中心或服务器发生故障、灾难或意外情况时,能够保证数据的安全性和可用性的一系列措施和策略。数据容灾的目标是确保在不可避免的情况下,数据的完整性、可恢复性和可用性不受到严重影响,以保障业务的持续运行和数据的...

读多写少型业务场景多活实践

在杭州单元发生故障的情况下,可以使用MSHA切流功能将受影响的用户流量切换到另外的单元,进行快速业务恢复(这里区别于传统的思路,不是去排查、处理和修复故障,而是立即使用切流进行恢复,将业务恢复和故障恢复解耦)。容灾切换预期:将...

监控主动报警的系统事件列表

当云服务器ECS、云监控、云数据库OceanBase版和Web应用防火墙发生指定系统事件时,云监控主动通过消息中心给消息接收人发送报警通知。云监控主动报警的系统事件列表如下表所示。云产品 事件类型 事件名称 事件含义 事件状态 事件等级 ...

基本概念

集成中心 名词概念 说明 监控源 监控源表示上游监控系统,包括阿里云监控系统、开源监控系统、其他云厂商监控系统、业界商业化监控系统。监控源产生的告警是整个报警、事件、故障的源头。集成接入 集成接入是将监控源跟运维事件中心数据...

查看应用分组

在目标应用分组的左侧导航栏,您可以根据所需查看该应用分组的 组内资源、监控视图、故障列表、可用性监控、组进程监控系统事件、自定义事件、日志监控、自定义监控、报警历史、报警规则 和 业务监控。功能 说明 组内资源 您可以查看目标...

产品正式商业化发布

产品主打功能 丰富的监控系统集成及通知:支持主流监控系统及通知渠道集成对接,从此无需在多个监控系统中反复切换,更高效的响应问题。多维降噪,从此告别报警风暴:横向抑制、纵向收敛,精准管控每个核心报警,更少的事务性操作。事件全...

应用场景

一站式运维事件管理 应用场景 满足各类监控场景下报警统一事件化管理需求,支持集成对接各监控系统,支持服务器自定义推送异常事件,对报警、事件、故障进行全流程一站式管理,提升企业运维效率。能够解决 多源监控集成:支持多个常见监控...

功能架构

应用监控 系统能同时监控容器应用和经典应用,并通过 LDC、IDC 和单机实例等多视角、多维度逐层下钻分析,实时展现服务实例、依赖的中间件和基础资源运行状态、使用趋势和告警信息,发掘应用故障所在的层级和对象,保证应用的流畅运行。...

什么是容器报警演练

AHAS容器演练中的监控报警验证功能通过模拟事件触发,验证集群监控报警设置是否正常可用,并统计报警成功率、以及事件触发到监控报警的平均延迟,从而验证Kubernetes集群监控报警系统的有效性。报警演练功能特性 无损。不同于其他故障演练...

什么是故障演练

适用场景 故障演练可适用于以下典型场景:衡量微服务的容错能力 通过模拟调用延迟、服务不可用、机器资源满载等,查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。...

无法连接Windows实例

故障现象 CPU负载过高导致系统无法进行远程连接。解决方法 如果杀毒软件在后台执行,请将杀毒软件升级至最新版本或者直接删除。请使用商业版杀毒软件,或者使用Microsoft Safety Scanner微软免费安全工具,在安全模式下扫描杀毒,相关信息...

ARMS统一告警管理最佳实践

本文介绍告警统一管理的最佳实践,以帮助企业更好地处理异构监控系统所带来的挑战和问题。背景信息 在云原生时代,企业IT基础设施的规模越来越大,越来越多的系统和服务被部署在云环境中。为了监控这些复杂的IT环境,企业通常会选择使用...

前端监控场景

现有的Server端监控系统相对已经很成熟了,而页面加载和页面运行时的状态监控一直比较欠缺。主要原因是对于前端监控的重视不足,认为服务端的监控可以部分替代前端监控,这种想法就导致系统在线上运行时,无法感知用户访问系统时的具体情况...

EMR Kafka磁盘故障运维

Kafka服务层面:可以在云监控系统中设置EMR Kafka集群的OfflineLogDirectoryCount和UnderReplicatedPartitions等指标告警,及时发现相关指标的异常。ECS系统层面:可以在云监控中设置相应ECS实例的I/O wait和mbps等指标,来监控磁盘的健康...

围绕混沌工程的平台实践

AHAS Chaos除了提供一些基础的系统指标如CPU、内存、网络、磁盘之外,还集成了阿里云的ARMS,如果您的应用已经接入ARMS就可以在AHAS Chaos里直接观测到对应的指标,后续也将会集成更多的监控系统,功能如下图所示。更多信息,请参见 创建...

查看系统事件

事件监控为您提供各云产品系统事件的统一查询和统计入口,使您及时得知各云产品的运行状态,并接收报警通知,便于您在业务故障时,快速分析并定位问题。背景信息 云监控支持各云产品的系统事件,请参见 云产品系统事件。操作步骤 登录 云...

Java应用监控和诊断方案

基于ARMS的应用监控方案 ARMS提供的 应用监控 功能,脱胎于阿里巴巴内部的分布式跟踪与监控系统(内部称为“鹰眼系统”),可以在不修改任何现有代码的情况下帮助网站开发人员和运维人员解决上述问题。调用拓扑图 您可以在ARMS中看到应用的...

报警设置

订阅事件通知:当 Tair 实例产生了主动运维事件(如实例迁移)、实例发生故障或触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。常见问题 ...

可观测性的设计原则

监控系统的指标可以让组织了解系统的健康状况和性能情况,以便在系统出现异常时快速发现问题。监控指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、Zabbix等,以及阿里云提供...

轻量版

【新增】增加主机监控能力,包括监控系统平均负载、网络流入流出速率和网络流入流出数据包。非LTS版本 Link IoT Edge非LTS版本如下表所示。版本号 发布日期 版本说明 v2.9.7 2021-01-05【修复】修复了启动Link IoT Edge后,如果变更DNS...

监控与日志

系统事件监控 阿里云云监控服务的事件监控功能自动汇集云产品故障、运维事件,并为您提供各云产品系统事件的统一查询和统计入口,使您明确得知其使用状态。通过应用分组进行资源分类后,云产品产生的系统事件会自动与组中资源关联,帮助您...

查看系统事件

事件监控为您提供各云产品系统事件的统一查询和统计入口,使您及时得知各云产品的运行状态。便于您在业务故障时,快速分析并定位问题。背景信息 云监控支持各云产品的系统事件,请参见 云产品系统事件。操作步骤 登录 云监控控制台。在左侧...

监控服务概览

OSS监控服务为您提供系统基本运行状态、性能以及计量等方面的监控数据指标,并且提供自定义报警服务,帮助您跟踪请求、分析使用情况、统计业务趋势,及时发现以及诊断系统的相关问题。OSS监控指标主要分为基础服务指标、性能指标和计量指标...

设计原则

面向风险的应急快恢原则 在一些场景下,即使设计了各种技术手段去提高系统的冗余、保持业务的高可用,但还是避免不了生产系统故障发生,所以需要面对故障建立一个高效的故障应急流程机制和稳定的技术平台,实现故障风险实时发现、应急...

功能和优势

Prometheus是一个开源的监控和报警系统,Prometheus依赖少,功能齐全,广泛用于Kubernetes集群的监控系统中。如要了解更多有关Prometheus的信息,请参考 Prometheus文档。Prometheus的本地存储设计可以减少其自身运维和管理的复杂度,能够...

Demo体验

操作步骤 创建考场 进入远程监控Demo体验页。在PC浏览器端,打开体验地址:远程监考考试Demo。创建考场。在 远程监考考试Demo 页输入考场名称,单击 创建考场 完成创建。创建考场后,系统将为您自动生成一个考场,监考老师和考生可以分别...

Demo体验

操作步骤 创建考场 进入远程监控Demo体验页。在PC浏览器端,打开体验地址:远程监考考试Demo。创建考场。在 远程监考考试Demo 页输入考场名称,单击 创建考场 完成创建。创建考场后,系统将为您自动生成一个考场,监考老师和考生可以分别...

概览

监控通过在主机上安装插件,为您的主机提供监控功能。无论您的主机是云服务器ECS,还是其他云厂商的虚拟机或物理机,都可以使用云监控的主机监控功能。目前云监控仅支持为Linux和Windows操作系统的主机安装插件。应用场景 您可以使用主机...

使用API查询监控数据

大型企业内部通常有自建的运维监控系统,上云过程中会面临如何将云资源监控数据与已有系统集成的问题。下面本文将为您介绍如何通过云监控接口查询各产品监控数据,从而将阿里云的监控数据与现有系统进行集成。指标类监控数据查询的接口 云...

什么是ARMS前端监控

现有的服务器端监控系统相对已经很成熟,而页面加载和页面运行时的状态监控一直比较欠缺。例如:无法第一时间获知用户访问您的站点时遇到的错误。各个国家、各个地区的用户访问您的站点的真实速度未知。每个应用内有大量的异步数据调用,而...

性能监控最佳实践

这样可以大大提高监控效率,减少监控人员的工作量,同时也可以更加全面地监控系统的性能。提高监控精度:传统的性能监控方案往往只能监控系统的基本指标,例如CPU使用率、内存利用率等。而一体化性能监控则可以通过集成多种监控工具和技术...

性能监控概念

什么是性能监控,以及性能监控的对象有哪些。伴随着突发流量、系统变更或代码腐化等因素,性能退化随时会发生。如在周年庆大促期间由于访问量暴涨导致请求超时无法下单;应用发布变更后,页面频繁卡顿导致客诉上升;线上系统运行一段时间后...

如何使用Prometheus监控Nebula

每套完整的自建监控系统都需要安装并配置Prometheus、Grafana、AlertManager等,其过程复杂、实施周期长。缺少与阿里云ECS快速集成的服务发现(ServiceDiscovery)机制,因此无法根据ECS标签来灵活定义抓取Targets。如果自行实现类似功能,...

监控与日志

监控转发路由器实例 监控网络实例连接 监控带宽包 监控跨地域连接 监控专线 说明 以上文档仅提供如何在云企业网管理控制台为监控指标设置报警规则,如果您希望在云监控控制台为监控指标设置报警规则,请参见 创建报警规则。相关文档 ...

如何使用Prometheus监控Nebula

每套完整的自建监控系统都需要安装并配置Prometheus、Grafana、AlertManager等,其过程复杂、实施周期长。缺少与阿里云ECS快速集成的服务发现(ServiceDiscovery)机制,因此无法根据ECS标签来灵活定义抓取Targets。如果自行实现类似功能,...

如何使用Prometheus监控TiDB

每套完整的自建监控系统都需要安装并配置Prometheus、Grafana、AlertManager等,其过程复杂、实施周期长。缺少与阿里云ECS快速集成的服务发现(ServiceDiscovery)机制,因此无法根据ECS标签来灵活定义抓取Targets。如果自行实现类似功能,...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云监控 视图计算 负载均衡 轻量应用服务器 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用