故障诊断

功能概述 ADP底座提供的故障诊断引擎包含以下能力:对告警消息进行诊断并提供修复建议;对于组件整体提供诊断数据并分析根因;关联运维操作提供修复方案。接入流程 ADP-Local的故障诊断引擎,允许客户根据业务场景配置诊断规则,然后根据...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

Pod诊断

容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查、...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

应用场景

故障恢复 通过ASM,可以轻松实现开箱即用的故障恢复功能:分布式系统存在高度复杂性,在基础设施、应用逻辑、运维流程等环节都可能存在稳定性风险导致业务系统的失效。提供了基于Istio的混沌工程能力,包括如何使用连接池配置和异常检测...

功能特性

产品主要功能包括风险管理、日常巡检、故障诊断、应急预案、故障演练等。风险管理 风险管理 是高可用管理平台核心,是风险事件汇集、处置的中枢平台,具体如下。风险事件 风险事件汇集:负责将监控、巡检、诊断产生的风险或告警信息进行...

应用诊断

应用诊断是对应用的单独故障诊断,可以由链路诊断触发或人工触发。高可用管理平台通过应用诊断初步定位问题,锁定可疑应用,再通过 Arthas 和线程分析进一步确认问题。目前,应用诊断支持用户应用和蚂蚁应用。应用诊断是故障诊断的原子能力...

故障诊断

抓取性能数据 功能,如下图所示:一般来说,如果涉及到内存泄漏的,可以抓取 堆快照,如果是 CPU 异常飙高的,可以抓取 CPU Profile 数据,下面我们以一个 CPU 异常飙高和内存泄漏的例子来看下如何使用 Node.js 性能平台提供的故障诊断功能...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

使用ACK AI助手进行故障排查和智能问答

若ACK AI助手无法定位问题的根因并提供可用的解决方案,您可以发起进一步发起诊断,对异常的Pod、Node节点发起基于ACK技术专家诊断经验的深度故障诊断功能。更多信息,请参见 使用集群诊断。前提条件 已开通 容器服务 Kubernetes 版 并已...

应用故障自动诊断

如果发现问题,则会在应用总览页面上方闪现一个红色盾牌图标,单击该图标即可弹出故障诊断报告,故障报告上的故障定界和根因分析可以帮助您更好地发现和解决问题。常见的故障自动诊断场景 RT突增 下游业务导致的本应用的RT突增,您可以联系...

诊断规则

通过故障诊断平台,运维人员可以将诊断过程、排查顺序进行图形化编排与设计,即故障诊断决策树。而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现...

配置算法实例

I-V曲线诊断 通过阵列配置对组串IV曲线进行模式分析,完成对光伏电站组串的故障检测,实现简单、高效的运维管理,从而降低运维成本。具体使用说明,请参见 I-V曲线诊断。创建阵列 重要 创建的阵列总数量,不能超过当前 I-V曲线诊断 算法...

诊断决策树

在左侧导航栏上,单击 故障诊断>诊断决策树。单击 新建,在 创建诊断决策树 页面,配置诊断决策树信息,包括决策树名称、描述,超时时间以及标签。单击 确认。编辑诊断决策树,否则节点将无法执行。单击目标诊断决策树名称进入详情页,开始...

监控、诊断故障排除

诊断错误 客户端应用程序会在请求发生错误时接收到服务端返回的相关错误信息,监控服务也会记录并显示各种错误类型请求的计数和占比。您也可以通过检查服务器端日志、客户端日志和网络日志来获取相关单个请求的详细信息。通常,响应中返回...

支持计划FAQ

服务支持计划服务范围包含:关于阿里云服务与产品功能、容量、架构的咨询 使用、配置阿里云产品的最佳实践 阿里云的产品相关的技术问题、故障诊断 阿里云API 和阿里云SDK问题的故障诊断 与阿里云资源相关的操作或系统问题的技术支持 与阿里...

演练概述

基于阿里巴巴多年业务的真实线上故障库的积累,AHAS故障演练模块为您预定义了丰富的测试任务,检验应用的高可能力。故障演练支持对部署在阿里云ECS实例、容器服务Kubernetes集群、K8s架构类应用、Java类应用进行故障演练。完整的故障演练...

自助诊断GPU节点问题

ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点...

响应云盒维修事件

涉及的流程如下:重要 硬件维修采用整机替换的方式现场更换硬件设备,阿里云不在现场进行硬件故障诊断和排查。在您授权同意后,阿里云会按照约定的时间上门更换硬件设备,并将拆除的故障设备运送回阿里云工厂进行维修。具体维修流程,请...

使用OpenAPI诊断工具进行故障排查

阿里云OpenAPI平台提供使用诊断...您可以登录 OpenAPI使用诊断,输入完整的RequestID或SDK报错信息,然后单击 诊断,获取您的故障排查结果及对应的解决方案。如果诊断工具仍未能解决您的问题,您可以参考 故障排除、常见问题 获取解决方案。

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

搭建高可用架构

为保障您的业务正常运行,RDS提供各类高可用功能,例如独享型规格、高可用系列、多可区、跨地域备份恢复等等。创建高可用架构实例 在 创建实例 时,您需要关注如下几个涉及高可用架构的选项:系列:RDS支持多种系列,建议您选择 高可用...

产品优势

自动化故障诊断和标准化应急预案快速定位并恢复故障,减少因故障引起的业务中断时间。故障演练主动检验应用高可能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新 阿里云、蚂蚁技术风险团队基于域内、...

步骤七:故障切换

该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。故障恢复类型 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再...

步骤七:故障切换

该模式适用于生产站点确实发生短时无法恢复的故障,需立即切换至容灾站点的场景。故障恢复类型 数据同步后切换 该故障恢复会停止保护组中被保护的实例,并且一直等到所有被保护的实例停止,再进行最后一轮数据同步,并等待数据同步完成后再...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

集群管理FAQ

当Kubernetes集群出现问题或者节点异常时,您可通过容器服务ACK提供的一键故障诊断功能,辅助您定位集群中出现的问题,详情请参见 使用集群诊断。如果集群诊断功能无法满足需求,您需要分别在Master节点和异常的Worker节点上收集Kubernetes...

流水单据型业务场景多活实践

复现故障 改造完成容灾架构后,还需验证容灾能力是否符合预期,接下来将历史故障进行复现,通过制造真实的故障来验证容灾恢复能力。演练准备。登录 AHAS控制台。在控制台左侧导航栏选择 多活容灾。在左侧导航栏选择 监控大盘,在顶部菜单栏...

读多写少型业务场景多活实践

与许多企业一样,该电商业务首次开始考虑容灾建设,是源于一次商品应用的故障,导致导购页面长时间无法访问,电商业务瘫痪。虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始考虑...

查看实例的系统日志和屏幕截图

您可以利用这些功能分析排查实例故障,例如诊断操作系统无响应、异常重启或者无法连接实例等。前提条件 实例必须处于 运行中(Running)状态才能获取系统日志和屏幕截图。背景信息 云服务器ECS的系统日志是运维诊断的重要一环。如果您需要...

ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

网络诊断

重要 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本、负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。前提条件 已创建ACK...

应用场景

故障演练 为不断提升产品高可能力,通过高可用管理平台的故障演练模块,设计并规划演练计划和恢复方案,继而在演练过程中不断发现、解决容灾预案存在的问题。以此,降低产品使用过程中故障发生概率,提高故障恢复效率,进而实现产品高...

强弱依赖治理概述

强弱依赖治理就是通过科学的手段持续稳定地得到应用间依赖关系、流量、强弱等数据,提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续推进系统稳定性提升。什么是强弱依赖?异常发生时,不影响核心业务流程,不...

故障发现

对于完成监控覆盖的核心业务场景,在异常上报时,通过工具自动检测或值班人员人工判断,及时识别风险或故障,以风险预警和故障通告的形式快速调度应急负责人上线处理,避免业务受损或降低业务受损程度。之所以设立7*24监控值班,是因为报警...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现的故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

混合云应用双活容灾最佳实践

说明 演练前,基于MSHA流量监控或其他监控产品,确定业务稳态的监控指标(如日常情况RT≤200ms,错误率),以便在故障发生时判断故障影响面以及在故障恢复后判断业务的实际恢复情况。步骤二:应用故障注入 这里使用阿里云故障演练产品,对...

什么是消息演练

AHAS提供了强大且高灵活度的故障演练功能,可以根据不同的场景注入对应的故障类型。为了使您的演练服务更便捷,故障演练还提供消息演练功能。本文介绍消息演练的基本概念。消息演练概述 目前市面上有RocketMQ、Kafka、RabbitMQ等流行的消息...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 数据库审计 负载均衡 应用高可用服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用