基本概念

事件发生 在软件系统运行期间采集的事件动态。事件发生的可能原因是收到系统发出的信号或者系统正在监测的信号,或者状态或时间的变化等。例如,电池电量不足或者虚拟机即将按计划重启时,设备可能会进入报警状态。生产者 一个特定的实例、...

功能发布记录

版本发布记录 本文介绍运维事件中心每次发布涉及的新增功能、功能优化、重要问题修复及对应的文档介绍,帮助您了解运维事件中心的产品发布动态。版本号 发版时间 功能内容 V1.0.0 2021-07-19 1.事件中心 2.集成中心 3.策略中心 4.服务中心 ...

自动监控和响应ECS系统事件

在大规模集群、实时资源调度等场景,如果您需要主动监控和响应阿里云提供的ECS系统事件,来实现故障处理、动态调度等自动化运维,可通过云助手插件 ecs-tool-event 实现。说明 ECS系统事件是由阿里云定义的,用于记录和通知云资源的信息,...

ECS系统事件概述

应用场景 通知风险和异常 针对未在ECS控制台展示的系统事件(包括影响ECS资源可用性和造成性能受损的系统事件),例如因系统维护重启实例等运维事件、实例到期等费用预警事件,阿里云会将系统事件推送至ECS控制台展示,部分高危事件还会...

如何管理事件

本文档主要介绍如何管理事件事件来源 通过流转规则触发的系统事件;...故障动态 故障动态可以直接链接到每个节点处理人,支持查看影响事件详情的升级策略的快照信息。历史事件的信息可以帮助处理人快速链接到关键信息,提升事件处理效率。

查看历史系统事件

您可以查询过去一周内已处理的云服务器ECS系统事件,获取故障诊断和复盘分析数据。通过控制台查看 登录 ECS管理控制台。在左侧导航栏,单击 事件。在 事件 页面,您可以选择相应的事件类型查看不同地域下的系统事件,获取实例ID、事件类型...

系统事件

您可以在系统事件中查看边缘主机、应用软件、终端设备等的运行动态。查看系统事件 登录 边缘计算控制台。在左侧导航栏选择 运维与支持>系统事件。在 系统事件 页面,您可以查看具体的系统事件。您可以根据事件的来源类型、事件类型、所属...

事件告警概览

故障排查:通过审计日志和告警来分析系统故障或性能问题的原因。功能特性 实时检测事件:当您设置告警规则后,操作审计将实时检测云上异常事件,快速发现风险。支持设置告警规则:操作审计内置关于账号安全、权限管理、资源管理等多条告警...

查看并管理计划内事件

说明 如需第一时间获知待处理事件动态(例如事件的产生和执行情况),您可以通过云监控平台配置事件报警。具体操作,请参见 订阅事件通知。操作步骤 登录 Tair管理控制台。在左侧导航栏,单击 事件中心>计划内事件。在 计划内事件 页面,...

查看并管理计划内事件

说明 如需第一时间获知待处理事件动态(例如事件的产生和执行情况),您可以通过云监控平台配置事件报警。具体操作,请参见 订阅事件通知。操作步骤 登录 Redis管理控制台。在左侧导航栏,单击 事件中心>计划内事件。在 计划内事件 页面...

GxP欧盟附录11标准合规包

13.1 应报告和评估所有事件,而不仅仅是系统故障和数据错误。应确定重大事件的根本原因,并应成为纠正和预防行动的基础。使用云安全中心企业版 使用云安全中心企业版或者更高级别的版本,视为“合规”。1.1 风险管理应贯穿计算机化系统的...

性能监控最佳实践

提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...

编辑自定义功能

例如:将已定义的属性 电压 作为出参,则设备上报该故障事件时,将携带当前设备的电压值,用于进一步判断故障原因。当接入网关协议为OPC UA时,需设置参数索引,用于标记参数的顺序。说明 不能用以下系统保留参数作为输出参数的标识符:set...

单个添加物模型

例如:将已定义的属性 电压 作为出参,则设备上报该故障事件时,将携带当前设备的电压值,用于进一步判断故障原因。当接入网关协议为OPC UA时,需设置参数索引,用于标记参数的顺序。说明 不能用以下系统保留参数作为输出参数的标识符:set...

概述

但随着各公司业务范围的扩展和软件系统架构持续迭代升级,系统的复杂度随之增加,面对更多的非预期事件风险,如各类软硬件故障、错误的变更、突发流量,甚至到光纤挖断、自然灾害等引起的整个机房不可用情况,如何保障系统稳定性具有很大...

应用场景

在线业务弹性扩容 根据业务流量自动对业务进行扩容(基于Kubernetes HPA),无需人工干预,避免流量激增扩容不及时导致系统故障,以及平时大量闲置资源造成的浪费。在使用阿里云容器服务ACK场景下,支持将一个应用按比例部署到ECS或ECI上,...

ECS系统事件汇总

本文汇总了云服务器ECS支持的系统事件(包括计划内运维事件、非预期运维事件、实例费用事件和实例状态变化事件等),并为各系统事件提供处理建议。说明 如果事件Code列为未定义,例如实例状态改变通知(Instance:StateChange),代表该系统...

客户案例

业务挑战 一致性,一致性是金融业务的生命线,为了应对硬件或者系统故障(IDC/OS/机器故障),传统的数据库在这方面为业务提供多种选择。最大可用模式在主库故障情况下可能造成数据丢失。最大保护模式会提高全年的不可用时间,并造成性能...

监控动态RDS凭据轮转

KMS凭据管家支持向云监控投递动态RDS凭据轮转事件,您可以通过云监控的控制台查询轮转事件、创建事件报警,从而实现事件报警、异常事件自动化处理等需求。查询轮转事件 登录 云监控控制台。在左侧导航栏,选择 事件监控>系统事件。在 事件...

监控动态ECS凭据轮转

KMS凭据管家支持向云监控投递动态ECS凭据轮转事件,您可以通过云监控的控制台查询轮转事件、创建事件报警,从而实现事件报警、异常事件自动化处理等需求。查询轮转事件 登录 云监控控制台。在左侧导航栏,单击 事件监控>系统事件。在 系统...

集群管理FAQ

journalctl-u kubelet 集群常见问题 下表罗列了一部分ACK集群常见的故障原因以及处理方法。故障场景 处理方法 API Server组件停止或Master组件停止:不能创建、停止、更新Pod、Service、Deployment等资源。已有的Pod和Service仍然能够正常...

附录:SOFAStack 产品目录

只要保证消息格式不变,消息的发送方和接收方并不需要直接连接,任何一方的系统故障都不会对其他应用产生影响。分布式事务的数据一致性 应用解耦后还需要确保数据的最终一致性,利用消息队列事务消息和消息的可靠传递机制,可以在实现系统...

查询指定实例系统事件信息

查询指定实例系统事件信息,默认查询处于非活跃状态的历史系统事件。接口说明 您最多可以查询最近 30 天的已完结历史系统事件。对于未完结的系统事件无查询时间限制。通过指定 InstanceEventCycleStatus 参数,还可以查询处于 Scheduled...

归档存储服务等级协议

阿里云将对不可用时间进行赔偿,但不包括以下原因所导致的服务不可用时间:(1)阿里云预先通知用户后进行系统维护所引起的,包括割接、维修、升级和模拟故障演练;(2)任何阿里云所属设备以外的网络、设备故障或配置调整引起的;(3)...

事件中心

实现自动化运维 在 NIS 控制台展示的事件均定义了事件状态,方便区分相应系统运维任务的执行情况,而且事件产生及状态变化时会上报至云监控,方便您进一步根据自身需要搭建事件驱动的自动化运维体系。使用限制 已停售的实例规格族不支持...

Windows系统实例的宕机问题排查

当Windows操作系统的ECS实例在运行过程中出现内核panic、内存溢出OOM(Out Of Memory)、蓝屏卡死等问题或收到系统事件通知实例出现操作系统崩溃时,说明该ECS实例发生宕机,您可以通过自助诊断工具或系统事件来定位原因并解决。...

DescribeInstancesFullStatus-查询实例的全状态信息

全状态信息包括实例状态和实例系统事件状态,其中,实例状态为实例的生命周期状态,实例系统事件为维护事件的健康状态。接口说明 返回结果包括实例状态和待执行(Scheduled)状态的实例系统事件。如果指定一个时间段,则根据时间段筛选事件...

产品简介

事件中心 统一的报警、事件故障任务流转处理 事件中心是统一的任务流转中心,统一管理整个企业业务系统运行过程中的所有报警、事件故障。管理系统历史的所有报警记录、报警消息及时通知订阅对象,帮助企业实时发现问题,规避风险;管理...

服务等级协议

本服务等级协议(Service Level Agreement,以下简称“SLA”)约定了阿里云向客户提供的运维事件中心(简称“运维事件中心”)的服务可用性等级指标及赔偿方案。特别提示您,除非另有约定,本协议不适用于运维事件中心公测、邀测、免费的...

DeviceSwitched

告警信息 事件名称 事件级别 状态码 状态描述 DeviceSwitched CRITICAL switched Device Role Changed 可能原因 智能接入网关主设备故障。智能接入网关主设备动态路由邻居故障。处理方法 无需处理。icmsDocProps={'productMethod':'created...

跨地域容灾

容灾系统部署在阿里云的两个地域中,当生产站点发生故障(例如海啸、地震)时,业务系统切换到容灾站点。生产站点和容灾站点部署在不同的地域,提供容灾即服务,分钟级的高可靠的业务持续性保障,有效避免了地域性灾害导致的系统故障

ECS整机恢复

当ECS整机发生系统故障或者错误操作时,您可以通过备份点的克隆和恢复功能,实现ECS整机回退和创建新的ECS整机。本文介绍整机恢复的相关操作。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。重要 当源ECS存在时,支持直接...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行原盘恢复或者创建新盘操作来实现数据恢复。前提条件 已创建ECS整机备份。具体操作,请参见 备份ECS整机。背景信息 云盘恢复...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

历史事件

事件原因 事件产生的原因,便于您了解非预期事件产生的原因。分为如下两类:用户通过控制台、API发起的操作(FROM_USER)。系统或人工运维操作(FROM_SYSTEM_USER和FROM_SYSTEM)。用户信息 事件执行者的账号ID。参数信息 用户在控制台发起...

云盘恢复

当ECS挂载的云盘发生系统故障或者错误操作时,您可以通过云盘在源地域的备份点或者复制到目标地域后的备份点,进行恢复原盘或者创建新盘操作实现数据恢复。本文介绍云盘恢复的相关操作。前提条件 已创建云盘备份。更多信息,请参见 创建云...

订阅事件通知

数据传输服务DTS(Data Transmission Service)已接入云监控平台,您可以通过事件订阅对重要的事件设置定制化的报警通知,让您及时了解事件的发生与进展,帮助您实时掌握事件动态,便于您在业务故障时快速分析并定位问题。背景信息 云监控...

订阅事件通知

图数据库GDB产品已接入云监控平台,通过对重要的系统事件设置报警规则,让您在第一时间得知事件的发生与进展,帮助您实时掌握事件动态。背景信息 云监控(CloudMonitor)是针对阿里云资源和互联网应用提供监控的服务。云监控的报警服务为您...

告警事件

来源系统 包括:数据质量 实时计算 数据服务 离线计算 告警原因 告警事件发生的原因,详情请参见 查看告警事件。推送方式 告警事件推送给您方式。推送方式 包括:电话 短信 邮件 钉钉 告警频率 告警推送给您的频率。首次告警时间 该告警...

告警事件

来源系统 包括:数据质量 实时计算 实时集成 数据服务 离线计算 告警原因 告警事件发生的原因,详情请参见 查看告警事件。推送方式 告警事件推送给您方式。推送方式 包括:电话 短信 邮件 钉钉 告警频率 告警推送给您的频率。首次告警时间 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云消息队列 RocketMQ 版 云安全中心 文件存储 CPFS 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用