如何配置流转规则

触发故障 确定 故障触发规则:设置触发的持续时长和次数对故障进行收敛降噪;如,某个规则在持续5分钟内触发3次才会触发故障,只要将时长和次数分别设置为5分钟和3次即可;影响服务:设置故障的 影响面;故障触发后,对其同样存在影响的...

产品架构

日常巡检、业务监控、故障诊断发现风险事件,并将其上报至风险管理中心,由风险管理中心进行统一调度,如触发故障诊断、应急预案等。运行总览集中展示整个平台的运行状态、风险情况。部署架构 HAS 部署时,需要依赖以下底层服务:数据库 ...

托管节点池概述

如果您希望将节点进行分组纳管,同时降低节点的运维负担,例如操作系统(OS)CVE漏洞自动修复、kubelet自动升级、节点故障时重启节点等,您可以启用托管节点池。托管节点池是ACK推出的自动化运维型节点池,在普通节点池的基础上支持多种...

故障止损恢复

快恢能力主要包含人工梳理快恢预案、通用垂直专项快恢能力:人工梳理预案:通过全面梳理故障场景及风险场景的可用降级预案来达到该场景触发故障时,系统自动推荐前期关联的预案,提供故障群内一键执行的方式,也提供设定执行条件,符合条件...

事件分析概述

微服务领域:微服务在现代开发架构中比较常见,该架构由小型、松耦合、可独立部署的服务集合而成,这导致微服务架构很难调试,系统中某一部分的小故障可能会导致大规模服务崩溃。很多时候不得不跳过某些正常服务来调试单个请求。事件总线...

故障隔离

故障隔离是在服务实例出现故障时,实现实例级别的精细化摘流隔离,使故障影响范围更小,提高服务的可用性。添加故障隔离规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障隔离 页签。单击...

如何管理故障

更新故障通知:在故障处理的过程中,当故障进展发生变化,包括进度更新、影响恶化、故障等级变化、原因明确、根因定位等场景下,可更新故障过程中的内容,并在 故障详情 页点击更新故障通知,选择需要的故障通告类型,并最终确认发出故障...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

主备切换

常见问题 Q:实例故障触发主备切换的原理是什么?A:依赖高可用HA(High Availability)系统的探活机制实现故障检测,具体如下:主要事件 说明 健康检测 HA系统会探测确认主备节点健康状态。主节点异常 发现主节点不可用,会将备节点提升为...

基本概念

通知渠道 事件/报警/故障触发时的通知渠道,目前支持:IM群通知(钉钉、企业微信)、电话、短信、邮件。通知类型 通知类型是将事件/报警/故障按照不同优先级、不同影响程度,选择不同通知渠道的订阅配置。更多请查看 什么是通知订阅 升级...

故障管理

服务组和故障应急群 服务组是一组人员,可以跟一个或者多个故障场景绑定,当故障触发时,会自动外呼对应的服务组值班成员以及加服务组成员到故障应急群。同时服务组也支持排班。简而言之服务组就是在故障平台的一组值班人员。故障应急群是...

AI助手使用说明

当发生故障或异常时,通过AI助手底层的告警系统可以自动和PAI进行交互,上报故障信息,并根据故障触发阶段和并行策略选择规避故障方法,对故障机自动进行隔离,并从Checkpoint快速恢复任务。AI助手提供的具体功能如下:异常采集和上报:...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速...

触发器不能正常触发函数执行怎么办?

解决方案 方案一:确认是否满足触发器的触发规则 常见触发器的触发规则示例如下。OSS触发器 OSS的Bucket和函数必须在同一个地域。上传的文件前缀或者文件后缀必须和触发器设置的文件前缀或文件后缀一致。例如,您为触发器设置的文件前缀为 ...

触发器不能正常触发函数执行怎么办?

方案二:确认是否满足触发器的触发规则 常见触发器的触发规则示例如下。定时触发器 请排查定时触发器设置的触发方式及对应的时间。如果您设置的触发方式为自定义 CRON 表达式,默认是UTC时间,请确认触发时间是否正确。更多信息,请参见 ...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

服务等级目标SLO概述

短时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间的故障率时同时设置一个短时间窗口,当短时间窗口内的故障率低于阈值时结束告警。...

服务等级目标SLO概述

短时间内的高故障率和低故障率且持续时间较长的故障才能触发告警,避免不必要的告警分散运维人员的精力从而错过真正关键的问题。多窗口能够在计算一段时间的故障率时同时设置一个短时间窗口,当短时间窗口内的故障率低于阈值时结束告警。...

配置EventBridge类别的OSS触发器

如果您需要为OSS触发器设置多个文件前缀和文件后缀,或者希望在一个OSS Bucket中关联10个以上的触发器,您可以创建EventBridge类别的OSS触发器,以便轻松应对文件上传等事件。注意事项 EventBridge类别的OSS触发器与 原生OSS触发器 不同,...

概述

基于阿里巴巴的历史经验,有一半以上的重大故障皆为变更触发,因此,变更过程的风险防御显得尤为重要,会直接关乎业务的稳定性。变更系统是指承载任何对线上生产环境变更操作的系统或工具。例如拥有控制台的白屏化系统/工具、压测/演练平台...

配置EventBridge类别的OSS触发器

如果您需要为OSS触发器设置多个文件前缀和文件后缀,或者希望在一个OSS Bucket中关联10个以上的触发器,您可以创建EventBridge类别的OSS触发器,以便轻松应对文件上传等事件。注意事项 EventBridge类别的OSS触发器与 原生OSS触发器 不同,...

报警设置

订阅事件通知:当 Tair 实例产生了主动运维事件(如实例迁移)、实例发生了故障触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。常见问题 ...

报警设置

订阅事件通知:当 Redis 实例产生了主动运维事件(如实例迁移)、实例发生了故障触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。常见问题 ...

TimerTriggerConfig

名称 类型 描述 示例值 object ...按照 CRON 表达式触发常见格式类似“0 0 4*”0 0 4*enable boolean 是否启用触发器 true payload string 输入自定义的参数,该触发消息将会作为 event 中 payload 的值。{"workflowInstanceId":"39639"}

TimeTriggerConfig

目前支持两种类型表达式:按照时间间隔触发:以每间隔 4 分钟为例,表达式为“@every 4m”按照 CRON 表达式触发常见格式类似“0 0 4*”“0 0 4*”enable boolean 是否启用触发器。true:启用触发器。false:不开启触发器。这种情况下,...

均衡分片(Rebalance)

例如存在Pod故障时,触发Rebalance操作会报错。执行Rebalance过程中,系统会计算是否需要Rebalance,最终达到均衡状态,即每个Worker加载的Shard数量差异小于等于1。例如:如果有2个Worker,2个Shard,那么最终每个Worker都会分到1个Shard...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

管理拓扑任务

触发原因:包括手动触发、定时触发、事件触发、拓扑触发。结束时间:任务执行的结束时间。耗时:请求执行时长,单位为秒。客户端:订阅节点的 IP 地址。上下文:可查看触发上下文及执行上下文。拓扑图:查看任务执行的状态,包括失败、停止...

管理简单任务和集群任务

触发原因:包括手动触发、定时触发、事件触发、拓扑触发。开始时间:任务执行的开始时间。结束时间:任务执行的结束时间。耗时:请求执行时长,单位为秒。客户端:订阅节点的 IP 地址。执行状态:包括执行成功、执行失败等。上下文:可查看...

产品高可用

最佳实践:会话同步可以保证长连接不受集群内服务器故障的影响,但是对于短连接或连接未触发会话同步规则时(未完成三次握手),集群内的服务器故障仍可能会影响用户请求。为了防止集群中某台机器故障导致的会话中断,您可以在业务逻辑中...

按量计费

(0-50]M/min 1.5元/小时(50-100]M/min 3元/小时(100-150]M/min 4.5元/小时 以此类推/流转规则(故障应急)流转规则触发类型为启动故障应急时的费用,按此类型流转规则条数收费。3.5元/条/日/变更管理 自定义审批配置费用,按审批流条数收费...

产品简介

管理系统历史所有升级的故障(人为手动升级或系统自动触发);支持故障全生命周期管理,包括通知、处理、Timeline记录、改进、预防;报警、事件、故障全链路数据在线化管理,实现业务运营的可视化、在线化、智能化管理。升级策略 针对所有...

功能特性

高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。

快速创建函数

触发器配置:设置函数的触发器,您可以使用触发触发函数执行。更多信息,请参见 触发器管理。步骤四:执行函数 登录 函数计算控制台,在左侧导航栏,单击 服务及函数。在顶部菜单栏,选择地域,然后在 服务列表 页面,单击目标服务。在 ...

基础设施安全

在创建DLC训练任务时可以开启该功能,健康检测会对参与训练的资源进行全面检测,自动隔离故障节点,并触发后台自动化运维流程,有效减少任务训练初期遇到问题的可能性,提升训练成功率。在检测完成后,会给出有关GPU算力以及通信性能的检测...

配置健康检查

健康检查探测到物理专线链路故障后并不会向您发送通知,推荐您为物理专线配置报警规则,物理专线触发报警规则后,系统会向您发送报警通知,方便您及时处理问题。警告 健康检查目标IP地址必须保证能正常回应ping的探测,本地数据中心不能对...

应用场景

报警事件分级管理:系统触发的报警、事件、故障无分级,不能第一时间区分任务的紧急和影响程度导致重要紧急的任务未及时处理,加大业务损失。打破数据烟囱:同一个业务运营下所有层级的报警数据统一汇聚,不同监控源数据互联互通,真实反应...

Control Center设置告警

每个触发器都基于一个带有条件值标准的指标,该条件确定触发器应何时触发。当触发触发时,它会执行所有未超出其关联的已启用操作。详情请参见 Confluent官方文档。建议设置的告警指标 类型 名称 含义 生产者触发器 字节数 一个broker每秒...

Control Center设置告警

每个触发器都基于一个带有条件值标准的指标,该条件决定触发器应何时触发。当条件满足时,它会执行所有未超出其关联的已启用操作。本文介绍如何在Control Center为 云消息队列 Confluent 版 集群设置告警。告警指标 Metrics 类型 名称 含义...

入门指南

该入门指南帮助您配置使用运维事件中心全流程,从配置人员的个人信息到接收到系统自动触发的报警、事件、故障并自动分派流转。运维事件中心操作步骤添加 前提条件:开通阿里云企业账号,若未开通,可前往 阿里云官网 注册并开通企业账号;...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库 OceanBase 版 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用