如何管理故障

故障发生条件 当事件重要程度上升、整体影响面恶化、持续长时间未解决,综合评估已达到故障时(P1-P4),处理人可手动将事件升级为故障。当报警来源的指标持续恶化,触发故障产生规则,系统自动产生故障。故障过程 故障过程用于记录管理...

故障应急协同

故障应急协同群 故障发生后,可以基于钉钉的沟通协同能力和API,自动创建故障处理应急协同场景群。将故障相关成员直接拉进处理群,相关成员包括故障受影响业务的“应急接口人”、可疑原因业务的“应急接口人”,并且系统自动电话通知。进群...

应用场景

以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高可用性的有效提升。机房级容灾 同城双活 同一个城市,建设两个机房环境,两地距离 50 km 以内,万兆光纤专线互连,业务应用层面可以两个机房同时提供业务服务,当...

诊断决策树

对于已知的明确故障,可以根据诊断现象,编排诊断决策树,进而故障发生时执行,完成故障定位。对于未知的故障,您可以依据运维经验,编排出常见的排查路径,辅助快速故障定位。新建诊断决策树 登录高可用管理控制台。在左侧导航栏上,单击 ...

诊断规则

而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现故障的快速定位与处理。本节将向您介绍诊断规则的相关操作。诊断规则是诊断节点的构成,诊断规则...

什么是消息演练

单个或多个模块都可能会有不同类型的故障发生,导致模块不能正常运行,例如Producer无法发送消息,这种场景叫做消息的演练场景。需要注意的是演练场景仅是组件表象,其内部故障原因可能是多种多样的,需要进一步进行分析。

混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...

FUNCTION

注意事项 使用SQL定义UDF时,您需要使用SQL脚本模式进行操作,普通SQL编辑模式可能会发生定义报错的问题。说明 MaxCompute的SQL脚本模式介绍及使用指导请参见 SQL脚本模式。MaxCompute支持通过 function 命令创建SQL UDF,且通过此命令创建...

CREATE SQL FUNCTION

注意事项 使用SQL定义UDF时,您需要使用SQL脚本模式进行操作,普通SQL编辑模式可能会发生定义报错的问题。说明 MaxCompute的SQL脚本模式介绍及使用指导请参见 SQL脚本模式。MaxCompute支持通过 create sql function 命令创建SQL UDF,且...

AIOps 解决方案专家服务内容说明

根据智能AI算法和阿里多年积累的AIOps经验,在故障发生后,提供自动化解决方案。在方案设计中我们提供包括时序预测和根因分析、历史数据预测的3大类算法场景的设计,更多具体算法详见《10.1算法列表》《智能故障发现设计方案》3 定制化业务...

时间属性配置说明

跑说明 用于定义节点生成的实例是否可以跑,即从数据幂等性考虑,任务是否可以跑,或者在什么情况下可以跑。生效日期 用于定义节点正常自动调度运行的时间范围,该时间范围外,节点将不再自动调度。使用说明 调度任务的时间属性...

EasyCkpt:AI大模型高性能状态保存恢复

因此,在发生故障时,迫切需要一种以低成本的方法来保存最新的Checkpoint。这样在重新启动训练时就无需重复计算,从而减少时间和成本的浪费。功能介绍 针对频繁故障的情况,PAI通过之前的故障失败场景总结出以下GPU和深度学习场景故障的...

集群高可用架构推荐配置

多可用区的地域:所有托管组件均严格采用多副本、多AZ均衡打散部署策略,确保在单个可用区或节点发生故障时,集群仍然能够正常提供服务。单可用区地域:所有托管组件均严格采用多副本、多节点打散部署策略,确保在单个节点发生故障时,集群...

使用ASM构建分布式系统的容错能力

重要 请勿频繁地试或试过长时间,避免出现级联的系统故障。解决方案 ASM支持使用虚拟服务定义HTTP请求试策略。以下示例定义网格中的服务请求httpbin应用时,如果httpbin应用无响应或与httpbin应用建立连接失败,会重新请求httpbin...

使用ASM构建分布式系统的容错能力

重要 请勿频繁地试或试过长时间,避免出现级联的系统故障。解决方案 ASM支持使用虚拟服务定义HTTP请求试策略。以下示例定义网格中的服务请求httpbin应用时,如果httpbin应用无响应或与httpbin应用建立连接失败,会重新请求httpbin...

虚拟服务(Virtual Service)CRD说明

对于访问指定目标主机的流量,虚拟服务定义了一组流量路由规则,每个路由规则定义了特定的流量匹配条件。如果流量匹配,则将其转发到路由规则所指定的目标服务或者目标服务的版本(子集)。本文介绍虚拟服务CRD的配置示例和字段说明。配置...

数据库代理常见问题

数据库代理采用双主节点的高可用架构,流量连接按照1:1比例分发到两个节点当中,如果其中一个节点发生故障,将由另一个节点承担全部流量,并会自动触发故障节点搭恢复任务,以确保数据库服务的高可用性。代理个数和代理规格是什么关系?...

消息(Message)

本文介绍 云消息队列 RocketMQ 版 中消息(Message)的定义、模型关系、内部属性、行为约束及使用建议。定义 消息是 云消息队列 RocketMQ 版 中的最小数据传输单元。生产者将业务数据的负载和拓展属性包装成消息发送到 云消息队列 RocketMQ...

任务调度属性配置概述

出错自动跑:定义该任务自动调度失败且可跑时,自动跑的频率。生效日期:定义该任务在什么时间段内调度。超过生效日期的任务将不再生成实例。资源属性 用于定义该任务发布至生产环境调度运行时使用的调度资源组。调度依赖 用于定义该...

错误处理

nil 以下示例展示了如何针对每一次请求设置一个业务侧的traceID,在发生重试时打印此traceID。func userRetryNotify(traceId,requestId string,err error,action string,backoffDuration time.Duration){/用户自定义逻辑,在重试时会触发...

实例的节点故障处理机制

当节点发生故障后,系统会对故障节点进行检查与修复。节点故障期间实例的相关服务不可用。说明 单节点实例适用于测试、培训、非核心业务等场景,生产环境建议使用副本集实例或分片集群实例以保障服务的高可用性。副本集 图 1.副本集架构 ...

发现并处理大Key和热Key

在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

发现并处理Redis的大Key和热Key

在使用Redis的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能引发的问题及如何快速...

配置报警规则

您对重要监控指标设置报警规则后,便可在第一时间得知指标数据发生异常,迅速处理故障。前提条件 您具有配置报警规则的权限。配置应用业务指标报警规则 在左侧导航栏,点击 应用监控。在应用列表中,选择要配置报警规则的应用,点击 操作 ...

实时分析链路数据

如果您的应用遇到流量不均、单机故障、慢接口治理、业务流量统计、灰度发布监控等问题,可以通过应用监控的调用链分析快速定位问题代码。本文介绍如何通过调用链分析快速定位五种经典线上问题,更直观地了解调用链分析的用法与价值。背景...

ModifyPropertyScheduleConfig-修改资产指纹采集的频率

500 ServerError ServerError 服务故障,请稍后试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 2022-08-01 API 内部配置变更,不影响调用 看变更集 变更项 变更内容 API 内部配置变更,不影响调用。2022-08-01 ...

Redis客户端连指南

通过设计自动试机制可以大幅避免此类故障,保障操作的成功执行。引发暂时性故障的原因 原因 说明 故障触发了高可用机制 云数据库Redis支持节点健康状态监测,当监测到实例中的主节点不可用时,会自动触发主备切换,例如将主节点和从节点...

Tair客户端连指南

通过设计自动试机制可以大幅避免此类故障,保障操作的成功执行。引发暂时性故障的原因 原因 说明 故障触发了高可用机制 云原生内存数据库Tair 支持节点健康状态监测,当监测到实例中的主节点不可用时,会自动触发主备切换,例如将主节点...

RebootMachine-重启实例

500 ServerError ServerError 服务故障,请稍后试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 2022-08-01 OpenAPI 错误码发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:500

AddVpcHoneyPot-开启蜜罐

500 ServerError ServerError 服务故障,请稍后试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 2022-08-01 OpenAPI 错误码发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:400 ...

DeleteStrategy-删除策略

500 ServerError ServerError 服务故障,请稍后试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 2022-08-01 OpenAPI 错误码发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:400 ...

VerifyCheckResult-检查项维度验证

检查项维度验证。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。...500 ServerError ServerError 服务故障,请稍后试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 暂无变更历史

ModifyEmgVulSubmit-执行应急漏洞检测

500 ServerError ServerError 服务故障,请稍后试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 2022-08-01 OpenAPI 错误码发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:400 ...

MQ订阅消息

SUCCESS":价签显示成功"BIZ_DISPLAY_FAILED":价签显示失败 EventId String 事件唯一id EventTime Long 事件发生时间 Payload JsonObject 详见各消息说明 Payload字段定义 字段 类型 说明 Type String 分类,取值范围:AP:基站 ESL:价签...

CreateAgentlessScanTask-创建无代理检测任务

500 ServerError ServerError 服务故障,请稍后试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 2023-07-17 OpenAPI 错误码发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:500 ...

OperateVuls-修复Linux软件漏洞

500 ServerError ServerError 服务故障,请稍后试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 2023-07-06 OpenAPI 错误码发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生变更。删除错误码:200 ...

DeleteHoneypot-删除蜜罐

500 ServerError ServerError 服务故障,请稍后试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 2023-03-01 OpenAPI 错误码发生变更、OpenAPI 入参发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生...

DeleteHoneypotNode-删除蜜罐节点

500 ServerError ServerError 服务故障,请稍后试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 2023-03-01 OpenAPI 错误码发生变更、OpenAPI 入参发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生...

OperationCancelIgnoreSuspEvent-取消忽略异常告警...

500 ServerError ServerError 服务故障,请稍后试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 2023-06-07 OpenAPI 错误码发生变更、OpenAPI 入参发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生...

DeleteHoneypotProbe-删除蜜罐探针

500 ServerError ServerError 服务故障,请稍后试!访问 错误中心 查看更多错误码。变更历史 变更时间 变更内容概要 操作 2023-03-01 OpenAPI 错误码发生变更、OpenAPI 入参发生变更 看变更集 变更项 变更内容 错误码 OpenAPI 错误码发生...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 NAT网关 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用