监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断和故障排除 监控诊断和故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

可观测性的设计原则

通过在系统中实现分布式跟踪,可以快速定位问题并进行有效的故障排除。链路跟踪可以通过在系统中添加跟踪标识符来实现。当请求进入系统时,标识符将被添加到请求中,并在整个系统中传递。每个组件都可以将标识符添加到它们的日志中,以便在...

通过云监控服务实时监控OSS流控信息

当用户的请求量超出OSS使用限制后会触发OSS流触发流控会对用户的请求产生一定的影响。您只需要在云监控管理控制台进行简单的配置,即可完成对OSS请求指标的实时监控,并在触发流控时及时收到告警通知。背景信息 OSS提供了用户级别和...

产品架构

高可用管理平台 HAS 在蚂蚁 SOFA 中间件以及 Café 应用发布平台的基础上,为用户应用及蚂蚁应用提供日常巡检、风险管理、应急预案、故障演练等技术风险管理能力,满足用户应用巡检、故障处置、应急管理、故障演练等多种应用运维场景。...

故障止损恢复

快恢能力主要包含人工梳理快恢预案、通用垂直专项快恢能力:人工梳理预案:通过全面梳理故障场景及风险场景的可用降级预案来达到该场景触发故障时,系统自动推荐前期关联的预案,提供故障群内一键执行的方式,也提供设定执行条件,符合条件...

故障排除

CC API在调用时可能会遇到一些错误,遇到错误时以错误码为依据进行故障排除,本文为您介绍 常见错误码的解决方案。云产品运行时错误码 云产品API运行时返回的错误码。以下两个错误码为云产品运行时错误,如想获取云产品详细错误信息,需...

托管节点池概述

如果您希望将节点进行分组纳管,同时降低节点的运维负担,例如操作系统(OS)CVE漏洞自动修复、kubelet自动升级、节点故障时重启节点等,您可以启用托管节点池。托管节点池是ACK推出的自动化运维型节点池,在普通节点池的基础上支持多种...

功能特性

故障演练 故障演练 提供了故障注入能力,通过演练平台主动触发故障,以此观测应用软件的高可用性。故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的...

功能特性

您可以在指定函数中创建触发器,该触发器描述了一组规则,当某个事件满足这些规则,事件源就会触发关联的函数。触发器简介 触发器管理 自定义域名 管理自定义域名 您可以为应用绑定自定义域名,可以实现通过固定域名访问应用。配置自定义...

故障隔离

故障隔离是在服务实例出现故障时,实现实例级别的精细化摘流隔离,使故障影响范围更小,提高服务的可用性。添加故障隔离规则 登录 SOFAStack 控制台。在左侧菜单栏选择 中间件>微服务平台>服务网格>服务治理,然后单击 故障隔离 页签。单击...

监控、诊断和故障排除

对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

同步或迁移源库中的触发器

当您在同步或迁移数据时包含了触发器(Trigger),且同步或迁移对象依赖的触发器会更新某个表时,可能会因为目标库过早同步或迁移触发器,而导致源和目标库的数据不一致。本文介绍如何同步或迁移触发器,避免数据不一致的问题。前提条件 ...

定时触发

定时触发节点用于设置时间,使服务在指定时间执行。常用于定时推送消息、定时执行任务、定时提醒、定时触发设备等场景。每个业务服务仅支持使用一个触发类型的节点。前提条件 已完成业务服务的创建。详细内容请参见 创建业务服务。节点配置...

基本概念

通知渠道 事件/报警/故障触发时的通知渠道,目前支持:IM群通知(钉钉、企业微信)、电话、短信、邮件。通知类型 通知类型是将事件/报警/故障按照不同优先级、不同影响程度,选择不同通知渠道的订阅配置。更多请查看 什么是通知订阅 升级...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式会以 短信或 站内信、邮件等形式通知到您,...

AI助手使用说明

当发生故障或异常时,通过AI助手底层的告警系统可以自动和PAI进行交互,上报故障信息,并根据故障触发阶段和并行策略选择规避故障方法,对故障机自动进行隔离,并从Checkpoint快速恢复任务。AI助手提供的具体功能如下:异常采集和上报:...

基于ack-lingjun-aiast组件实现集群自动化运维

组件介绍 安装灵骏AI助手开启PAI的作业监控和恢复功能后,当发生故障或异常时,灵骏AI助手的告警系统可以自动和PAI进行交互,并上报故障信息,并根据故障触发阶段和并行策略选择规避故障的方法,自动隔离故障节点,并通过checkpoint快速...

配置触发规则后的逻辑

若默认配置不能满足您的需求时,您可以自定义应用触发、降级或系统规则后的逻辑。本文将介绍适用于SDK应用的逻辑配置方法。背景信息 当应用触发、降级或系统规则时,默认抛出 BlockException 异常类的子类(触发规则,则抛出流...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

混沌工程缓存实战系列-Redis

因为客户端层面的影响面可,所以可以尝试从客户端层面去制造故障。因为服务端出现故障更加真实,所以可以从服务端层面去制造故障,但对于问题定位和排查的要求会更高。注入故障,观察指标的变化。缓存监控指标 目前支持的可监控的缓存...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

云产品事件触发器概述

云产品事件触发器的类型 云产品事件触发器是云监控触发器、云服务器ECS触发器、阿里云物联网IoT触发器等多种云服务类型的触发器的统称。其包含的云服务及其事件类型如下所示。弹性计算 云服务器事件 云服务器事件类型包括保留云盘、挂载...

云产品事件触发器概述

云产品事件触发器的类型 云产品事件触发器是云监控触发器、云服务器ECS触发器、阿里云物联网IoT触发器等多种云服务类型的触发器的统称。其包含的云服务及其事件类型如下所示。弹性计算 云服务器事件 云服务器事件类型包括保留云盘、挂载...

设置DDoS基础防护和原生防护攻击事件报警

通过事件报警您能够获知业务遭受的DDoS攻击事件,及时发现并修复问题,缩短故障处理时间,以便尽快恢复业务。本文介绍如何设置DDoS基础防护和原生防护攻击事件的报警通知。报警方式说明 阿里云DDoS原生防护提供消息中心报警、云监控报警和...

故障管理

在运维事件中心可以录入对应的故障等级,在关联的监控触发后,可以自动匹配到对应的等级定义,方便快速得到故障严重性的界定。服务组和故障应急群 服务组是一组人员,可以跟一个或者多个故障场景绑定,当故障触发时,会自动外呼对应的...

ALTER TABLE

ALTER TABLE 用于更改一个现有表的定义。简介 ALTER TABLE 更改一个现有表的定义。下文描述了几种形式。注意每一种形式所要求的锁级别可能不同。如果没有明确说明,将会获得一个 ACCESS EXCLUSIVE 锁。当给出多个子命令时,获得的锁将是子...

概述

变更风主要有三个目的:收敛因变更触发的重大故障;规范业务团队的变更操作,沉淀通用变更能力和执行标准;帮助变更系统建设风能力,护航业务变更执行。标准的变更过程一般可分为:计划、执行、结束三个部分,其中:计划阶段:该阶段...

消息发送重试和流控机制

触发条件 云消息队列 RocketMQ 版 的消息流控触发条件如下:存储压力大:参考 消费进度管理 的原理机制,消费者分组的初始消费位点为当前队列的最大消费位点。若某些场景例如业务上新等需要回溯到指定时刻前开始消费,此时队列的存储压力会...

pg_trigger

目录 pg_trigger 存储表和视图上的触发器。列名称 列类型 描述 oid oid 行标识符。tgrelid oid 触发器所在的表。tgparentid oid 此被克隆的触发器的父触发器,如果不是克隆则为0;这种情况会在创建分区或附加到分区表时发生。tgname name ...

SDK参考概述

配置触发规则后的逻辑 当应用触发、降级或系统规则时,默认抛出 BlockException 异常类的子类(触发规则,则抛出流异常 FlowException;触发降级规则,则抛出降级异常 DegradeException)。若默认配置不能满足您的需求,可通过...

0004-00000403

问题描述 Select请求触发。问题原因 您发起的Select请求超出了流限制。问题示例 您发起了SelectObject请求,但是单位时间内流量过大触发了流限制。解决方案 适当降低请求频率。

Control Center设置告警

暂停和恢复所有警报 出于维护或故障排除需要,必要时可暂停所有启用的警报。在暂停和恢复期间会遵守启用或禁用的单个操作的现有设置,暂停时会忽略满足和触发的任何触发条件,并抑制与触发器关联的所有已启用操作。恢复警报后,下次触发...

Control Center设置告警

暂停和恢复所有警报操作 出于维护或故障排除原因,必要时暂停所有启用的警报。在暂停和恢复期间会遵守启用或禁用的单个操作的现有设置。暂停时会忽略满足和触发的任何触发条件,并抑制与触发器关联的所有已启用操作。准备好后,再次恢复...

流水单据型业务场景多活实践

说明 基于MSHA流量监控或其他监控能力,确定业务稳态的监控指标,以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。演练预期如下:下单链路对订单应用是强依赖,强依赖故障会影响业务不可用。故障爆炸半径控制在...

接入Dubbo应用

将Dubbo应用接入AHAS应用防护后,可以对其配置流、降级和系统规则来保证系统稳定性。本文介绍如何使用SDK方式将Dubbo应用接入应用防护。操作步骤 登录 AHAS控制台。在AHAS控制台左上角,选择应用接入的地域。在控制台左侧导航栏中选择 ...

通过自定义埋点接入

说明 若未执行此步骤,当应用触发降级规则时,默认抛出 BlockException 异常类的子类(触发规则,则抛出流异常 FlowException;触发降级规则,则抛出降级异常 DegradeException)。结果验证 登录 AHAS控制台,在左侧导航栏选择 ...

基于流控策略的优雅退避机制

静默策略 开启流策略的控制能力后,当触发限制,服务端则会在返回头(Header)中返回流剩余的 quota 信息,即针对【用户】维度、【API+用户】维度,返回给客户端以下信息:API 调用剩余次数、限流剩余时间等。其中当被限流时,...

接入Spring应用

说明 若未执行此步骤,当应用触发降级规则时,默认抛出 BlockException 异常类的子类(触发规则,则抛出流异常 FlowException;触发降级规则,则抛出降级异常 DegradeException)。结果验证 登录 AHAS控制台,在左侧导航栏选择 ...

常见问题FAQ

4.HDMI无信号 故障示意图如下:故障排除方案如下:1.见下遥控器说明,按电源键,重启魔盒。2.重复插拔HDMI线 3.重启屏幕 屏幕操作指南由屏幕供应商给出。4.屏幕的信号源切换到HDMI输入。屏幕操作指南由屏幕供应商给出。如无法排除故障:...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 应用高可用服务 负载均衡 云数据库 OceanBase 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用