诊断规则

通过故障诊断平台,运维人员可以将诊断过程、排查顺序进行图形化编排与设计,即故障诊断决策树。而后,在实际故障发生时,即可执行自动化、标准化的故障排查,并直接输出诊断报告,反馈诊断结果。故障诊断功能有效提升了故障排查效率,实现...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括Pod诊断、Service诊断、Ingress诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACS集群中使用集群诊断功能。前提条件 已创建ACS集群。具体操作,请参见 创建ACS集群。确保ACS集群运行...

功能特性

产品主要功能包括风险管理、日常巡检、故障诊断、应急预案、故障演练等。风险管理 风险管理 是高可用管理平台核心,是风险事件汇集、处置的中枢平台,具体如下。风险事件 风险事件汇集:负责将监控、巡检、诊断产生的风险或告警信息进行...

使用集群诊断

容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...

应用诊断

应用诊断是对应用的单独故障诊断,可以由链路诊断触发或人工触发。高可用管理平台通过应用诊断初步定位问题,锁定可疑应用,再通过 Arthas 和线程分析进一步确认问题。目前,应用诊断支持用户应用和蚂蚁应用。应用诊断是故障诊断的原子能力...

产品架构

日常巡检、业务监控、故障诊断发现风险事件,并将其上报至风险管理中心,由风险管理中心进行统一调度,如触发故障诊断、应急预案等。运行总览集中展示整个平台的运行状态、风险情况。部署架构 HAS 部署时,需要依赖以下底层服务:数据库 ...

什么是高可用管理平台

事前:通过应用巡检、故障诊断以及和监控平台的联动,实现应用运行风险的主动发现。事中:通过故障诊断、应急预案、容灾切换实现风险事件快速定位和恢复。事后:通过风险定级、回溯,实现风险事件的闭环管理。有效提升 IT 技术风险防御水平...

产品优势

自动化故障诊断和标准化应急预案快速定位并恢复故障,减少因故障引起的业务中断时间。故障演练主动检验应用高可用能力。支持蚂蚁产品双中心容灾切换,满足监管合规需求。技术风险防控内容库快速更新 阿里云、蚂蚁技术风险团队基于域内、...

Arthas诊断

通过Cloud Toolkit插件,您可以在本地IDE中使用Arthas来实现本地诊断远程诊断。本文将以IntelliJ IDEA为例介绍使用Arthas进行本地诊断远程诊断的操作过程。前提条件 已安装和配置Cloud Toolkit,参见 在IntelliJ IDEA中安装和配置Cloud...

安全隧道概述

访问端与设备端均成功连接安全隧道后,您可在访问端基于安全隧道远程登录设备(例如通过SSH服务),进行设备的远程诊断故障排查、运维操作、配置更新和其他操作任务等。名词解释 名词 说明 安全隧道 设备端和访问端与物联网平台之间建立...

诊断报告

在左侧导航栏上,单击 故障诊断>诊断报告 进入 诊断报告 页面,您可以根据诊断任务名称、诊断结果、诊断状态或触发方式来筛选诊断运行记录及其诊断数据。查看诊断报告详情 在 诊断报告 页面,单击目标决策树 操作 列下的 详情,即可查看...

支持计划FAQ

服务支持计划服务范围包含:关于阿里云服务与产品功能、容量、架构的咨询 使用、配置阿里云产品的最佳实践 阿里云的产品相关的技术问题、故障诊断 阿里云API 和阿里云SDK问题的故障诊断 与阿里云资源相关的操作或系统问题的技术支持 与阿里...

如何使用远程助手?

远程助手(Remote Assistant,RA)提供远程诊断和协助服务,可以通过云端控制台下发指令诊断设备问题。在待诊设备页面(【远程助手 RA】->【待诊设备】)可以看到所选项目下连接了RA服务的设备列表:对于已经连接的设备,点击其所在行最右侧...

功能特性

提供故障诊断和运维监控,便于现场解决问题。与云端交付平台联动 线上集成、验证、出包,一步到位。柔性版本管理、故障回流差异。中间件统一供应 提供足够丰富的中间件(包括数据库),帮助产品加速实现完全容器化。对接入的中间件进行可运...

故障诊断

功能概述 ADP底座提供的故障诊断引擎包含以下能力:对告警消息进行诊断并提供修复建议;对于组件整体提供诊断数据并分析根因;关联运维操作提供修复方案。接入流程 ADP-Local的故障诊断引擎,允许客户根据业务场景配置诊断规则,然后根据...

诊断节点

在左侧导航栏上,单击 故障诊断>诊断节点。单击 新建,在 新建节点 页面,配置新节点的信息,包括节点名称、描述,选择节点类型、超时时间及标签。为该诊断节点绑定巡检规则,否则节点将无法执行。单击节点右侧 操作 列下的 详情 按钮。在...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

自助诊断GPU节点问题

启用节点诊断 您可以在故障诊断中选择待诊断的GPU节点发起节点诊断,并根据诊断报告修复问题。登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,选择 巡检和诊断>故障诊断。在 ...

Pod诊断

容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查、...

诊断决策树

在左侧导航栏上,单击 故障诊断>诊断决策树。单击 新建,在 创建诊断决策树 页面,配置诊断决策树信息,包括决策树名称、描述,超时时间以及标签。单击 确认。编辑诊断决策树,否则节点将无法执行。单击目标诊断决策树名称进入详情页,开始...

网络诊断

重要 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本、负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。前提条件 已创建ACK...

故障诊断

抓取性能数据 功能,如下图所示:一般来说,如果涉及到内存泄漏的,可以抓取 堆快照,如果是 CPU 异常飙高的,可以抓取 CPU Profile 数据,下面我们以一个 CPU 异常飙高和内存泄漏的例子来看下如何使用 Node.js 性能平台提供的故障诊断功能...

远程助手操作指南

远程助手(Remote Assistant,RA)提供远程诊断和协助服务,可以通过云端控制台下发指令诊断设备问题。下载应用 参考 系统应用下载 中的IoVCC Client 下载 安装应用 Android设备新建系统应用目录,比如iovcc。绝对路径为/system/app/iovcc,...

自治服务概述

云数据库 OceanBase 的自治服务是一款面向开发、运维、DBA 的一站式智能诊断自治服务,为用户提供可视化监控、性能优化、故障诊断、安全管理、容量管理等能力,帮助用户更简单、更低成本、更高性能的使用 OceanBase 数据库。背景信息 传统...

Service诊断

重要 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本,负载、容器组件等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。Service诊断对应的检查项 ...

Service诊断

重要 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本,负载、Docker、kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。Service诊断对应的...

Service诊断

重要 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本,负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。Service诊断对应的...

响应云盒维修事件

涉及的流程如下:重要 硬件维修采用整机替换的方式现场更换硬件设备,阿里云不在现场进行硬件故障诊断和排查。在您授权同意后,阿里云会按照约定的时间上门更换硬件设备,并将拆除的故障设备运送回阿里云工厂进行维修。具体维修流程,请...

应用场景

同时不断更新优化日常巡检、故障诊断、应急预案等内容的建设,不断丰富和完善应用技术风险防控体系,简化日常应用运维操作。故障演练 为不断提升产品高可用能力,通过高可用管理平台的故障演练模块,设计并规划演练计划和恢复方案,继而在...

DescribeAssistReport

调用DescribeAssistReport获取指定的远程诊断报告。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。请求参数 名称 类型 是否必选 示例值 描述 Action ...

AIOps套件概述

集群诊断 集群诊断提供一键故障诊断能力,辅助您定位集群中出现的问题,包括Pod诊断、节点诊断、Service诊断、Ingress诊断、内存诊断。诊断项 说明 Pod诊断 涵盖了常见的Pod问题,例如Pod启动失败、Pod镜像拉取失败、Pod运行异常等,并在...

管理容器组(Pod)

故障诊断 在容器组列表页面,您可以单击目标容器组右侧的 操作 列的 诊断,对该容器组进行故障诊断。更多信息,请参见 使用集群诊断。设置容器的CPU和内存资源上下限 应用创建完成后,您可以根据业务需求调整容器的CPU和内存资源上下限,...

AIOps套件概述

集群诊断 集群诊断提供一键故障诊断能力,辅助您定位集群中出现的问题,包括Pod诊断、节点诊断、Service诊断、Ingress诊断、内存诊断。更多信息,请参见 使用集群诊断。诊断项 说明 Pod诊断 涵盖了常见的Pod问题,例如Pod启动失败、Pod镜像...

常见问题

故障诊断时,执行诊断功能 3 分钟,随后自动切回到正常运行状态。Node.js 性能平台运行时提供了哪些额外的功能 Node.js 虚拟机 V8 的运行时内存状态监控;libuv 运行时状态监控;在线故障诊断功能:堆快照、CPU Profile、GC Trace 等。...

开发应用概述

Cloud Toolkit除了能帮助您简化应用部署、提高应用运维效率外,还能帮助您提高应用开发效率,包括创建Spring Cloud/Dubbo工程、管理远程服务器、管理ROS模板及资源栈、提供Web接口测试工具以及其他开发应用。文档 描述 创建Spring Cloud/...

使用ACK AI助手进行故障排查和智能问答

若ACK AI助手无法定位问题的根因并提供可用的解决方案,您可以发起进一步发起诊断,对异常的Pod、Node节点发起基于ACK技术专家诊断经验的深度故障诊断功能。更多信息,请参见 使用集群诊断。前提条件 已开通 容器服务 Kubernetes 版 并已...

SubmitAssistReport

调用SubmitAssistReport提交远程诊断报告。说明 对于一次诊断,首次提交会创建一份报告,后续提交会更新报告内容。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK...

支持计划-服务报告

服务范围不包含:代码开发 不在附录列表的第三方软件配置指导以及故障排查 所有第三方软件的安装、补丁更新、测试、故障诊断、优化等日常运维服务 注:对于不在阿里云服务范围内的第三方软件问题,客户可登录阿里云社区获取免费咨询,或...

功能特性

查看同域流量分析 网络监测与诊断 帮助用户在云上运维阶段更高效地监测网络业务变化和故障诊断排查。功能集 功能 功能描述 参考文档 事件中心 问题事件 展示已经造成业务受损,并且7天内状态一直处于进行中的异常事件列表。查看问题事件 ...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
物联网平台 数据库自治服务 数据库审计 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用