ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

NLB实例诊断

诊断项详情 区域,选中 显示全部诊断项,NLB 支持的全部诊断项将会显示出来,您可以查看全部诊断项的诊断详情。您也可以在 实例健康诊断 面板上方,单击 前往NIS查看历史诊断,即可跳转至网络智能服务控制台查看 NLB 实例诊断的更多信息...

企业版和标准版功能对比

支持 支持 空间分析 PolarDB MySQL版 的一键诊断融合了DAS部分功能,您可以通过空间分析,来查看目标集群的空间使用概况、空间剩余可用天数,以及数据库中某个表的空间使用情况、空间碎片、空间异常诊断等。支持 支持 锁分析 PolarDB ...

功能优势

AHAS Chaos 支持一次演练包含多个定义的故障场景,同时您可以定制这些场景的运行方式,选择依次进行故障注入或同时注入多个场景,通过不同的策略配置来达到不同的故障注入效果。丰富的故障场景 丰富的故障场景也是 AHAS Chaos 的一大特色,...

服务管控和治理

将 SOFA、Dubbo、SpringCloud 类型的微服务发布成功后,您可以在服务网格控制台上进行服务管控和服务治理的操作。操作视频 您可以根据以下视频快速了解如何进行服务管控和治理:服务管控 服务管控提供服务查询、服务消费者和提供者信息查询...

故障演练

故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的应用可以在容灾站点正常拉起。确保操作人员熟悉容灾恢复流程,确保在生成站点真正...

Pod诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深入定位问题根因。Pod诊断包括诊断检查项和诊断根因。诊断检查项:包括Pod检查...

故障演练

故障演练的意义 故障演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:方便地验证被容灾保护的应用可以在容灾站点正常拉起。确保操作人员熟悉容灾恢复流程,确保在生成站点真正...

EMR Kafka磁盘故障运维

磁盘故障及其运维通常伴随着磁盘上的数据销毁。在进行磁盘运维时,您应考虑数据是否需要迁移备份。对于Kafka集群,您还需要考虑Topic分区副本数据是否可以从其他Broker节点分区副本同步恢复。本文以EMR Kafka 2.4.1版本为例,介绍Kafka磁盘...

系统运维工具集SysAK使用说明

SysAK(System Analyse Kit)是阿里云操作系统提供的一个全方位的系统运维工具集,可以覆盖系统的日常监控、线上问题诊断和系统故障修复等常见运维场景。本文为您介绍SysAK的安装部署和使用方法。运维场景 阿里云通过对百万服务器运维经验...

支持计划-服务报告

服务范围不包含:代码开发 不在附录列表的第三方软件配置指导以及故障排查 所有第三方软件的安装、补丁更新、测试、故障诊断、优化等日常运维服务 注:对于不在阿里云服务范围内的第三方软件问题,客户可登录阿里云社区获取免费咨询,或...

CLB实例诊断

CLB支持对CLB实例从健康检查、闲置实例、容量超限诊断、证书诊断、安全策略检测、费用诊断、监听诊断等方面进行诊断检测,并提供异常的产生原因和常见处理方法,以帮助您快速地处理产品使用过程中遇到的问题。前提条件 首次诊断时,系统会...

产品优势

分钟级容灾切换 多活容灾MSHA基于对容灾架构的设计和全栈管控,提炼各类机房级故障场景下的一键切换,可以做到分钟级的RTO和RPO,非极端故障场景下可以做到秒级RTO。借助多活容灾MSHA提供的多活架构、常态化巡检监控以及日常容灾演练,不仅...

可运维性咨询服务内容说明

第三方软件的安装、测试、故障诊断、优化等日常运维服务。3.前提条件 客户应提前至少15个自然日申请该服务,以便于阿里云评估甲方需求实现可能性,确认是否承接该服务申请。甲方应在项目开始时提供必要的办公条件包括办公桌、办公椅、洗手...

如何排查Java场景下故障注入不生效的问题

为解决此类问题,在创建或编辑演练时,您可以故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,您需要先确认该演练的故障执行步骤是否已开启Debug模式。若...

AIOps套件概述

AIOps套件包括集群检查、集群巡检和集群诊断可以帮助您排查问题,提升运维效率。本文介绍AIOps套件优势、集群检查、集群巡检和集群诊断。索引 优势 集群检查 集群巡检 集群诊断 优势 AIOps套件由集群检查、集群巡检、集群诊断等一系列...

执行演练

在执行故障演练过程中,您可以实时查看演练进度、每个演练活动的运行状态及结果,同时也能够随时结束演练,进行恢复阶段的活动,清除故障演练影响。背景信息 一次完整的故障演练包括以下四个阶段:安装故障演练探针 创建演练 执行演练 停止...

健康诊断

背景信息 弹性伸缩的健康诊断可以检测伸缩组的属性、费用、配额等状态,帮助您及时了解伸缩组配置情况。本文通过以下方式为您介绍触发健康诊断功能的方法:触发方式 说明 相关链接 手动方式 针对任何已创建的伸缩组(启用 或 禁用 状态均可...

AIOps套件概述

AIOps套件包括集群检查、集群巡检和集群诊断可以帮助您排查问题,提升运维效率。本文介绍AIOps套件的优势、集群检查、集群巡检和集群诊断。优势 AIOps套件由集群检查、集群巡检、集群诊断等一系列工具组成,具有以下优势。功能 优势 集群...

监控、诊断故障排除

诊断错误 客户端应用程序会在请求发生错误时接收到服务端返回的相关错误信息,监控服务也会记录并显示各种错误类型请求的计数和占比。您也可以通过检查服务器端日志、客户端日志和网络日志来获取相关单个请求的详细信息。通常,响应中返回...

什么是云拨测

故障定位与诊断:云拨测利用先进的Traceroute诊断技术,快速发现并定位网络故障,提供详细的故障报告和解决建议。实时告警与通知:云拨测提供实时告警功能,当业务出现异常时,会主动发送告警通知,快速响应并处理问题。数据可视化:通过...

强弱依赖治理最佳实践

通过以上业务依赖的预判可以得出以下结论:前端对商品推荐服务预判为弱依赖,表示当推荐服务发生故障时前端正常访问不应该受阻。在购物链路中,商品服务product对商品数据库product-mysql预判为强依赖。表示如果扣减库存失败,则应该阻断下...

Service诊断

重要 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本,负载、容器组件等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。Service诊断对应的检查项 ...

Service诊断

重要 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本,负载、Docker、kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。Service诊断对应的...

什么是设备诊断

设备诊断是阿里云物联网平台针对设备运行数据提供的一系列运维场景智能服务,帮助您分析判断设备故障、探测设备潜在风险并及时预知业务异常。服务架构 服务优势 丰富的数据诊断指标 提供网络连接成功率、设备离线原因、云对接次数等丰富的...

Service诊断

重要 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本,负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。Service诊断对应的...

发现和排查实例问题

合理使用监控相关的功能可以帮助您及时发现和排查实例问题,在故障发生前处理掉潜在风险,避免影响业务。诊断实例的健康状态 实例健康诊断功能可以全方位诊断实例的操作系统配置、网络状态、磁盘状态等。诊断报告中针对异常诊断项目的影响...

性能诊断

性能诊断 功能是用于分析和优化性能的关键工具,通过 性能诊断 功能可以帮助您发现和解决报表和数据分析操作中的性能问题,提高报表查询的速度和响应性能,提升您对数据的分析效率和准确性。使用限制 性能诊断 功能暂时只有仪表板模块支持...

地域及可用区

可用区之间故障隔离,可以避免故障扩散,保证业务的连续性。说明 大型灾害或者大型电力故障除外。注意事项 创建阿里云实时计算Flink版时,选择的地域和可用区,在资源创建成功后,无法更改。不同地域资源的开放情况会根据实际业务使用情况...

同城多活架构实践

虽然故障最终得以解决,但故障导致的客户流失和企业口碑影响,对快速发展的业务造成不小的打击,迫使企业开始重视同城多活容灾能力的建设,以及定期做故障演练确保故障恢复能力的有效性。同城多活架构改造 基于MSHA多活容灾解决方案,您...

监控服务概览

OpenAPI访问监控数据 OSS服务的相关监控指标数据可以通过云监控提供的OpenAPI访问,使用方法请参见:云监控SDK参考 访问监控数据 监控、诊断故障排除 监控诊断故障排除 通过详细介绍以下各个方面的内容帮助您更好地了解OSS服务的运行...

Query级别诊断结果

可以在 AnalyticDB MySQL版 SQL诊断的Stage层或算子层执行计划中的 统计信息 区域查看对应Stage 扫描行数、扫描量,或TableScan算子的 输入行数 和 输入大小 来判断Stage和TableScan算子的扫描数据量。更多详情,请参见 Stage统计信息 和...

内存诊断

重要 使用故障诊断功能时,系统将在您的集群节点上执行数据采集程序并收集检查结果。采集的信息包括系统版本,负载、Docker、Kubelet等运行状态及系统日志中关键错误信息。数据采集程序不会采集您的业务信息及敏感数据。内存总览 内存总览...

混沌工程缓存实战系列-Redis

故障演练提供了类似K8s的探活功能,可以通过访问指定接口来判断业务是否可用。参数配置说明如下:参数 描述 示例值 failureThreshold 重试次数,重试几次失败后判断为校验失败。5 periodSeconds 探测时间间隔。2秒 successThreshold 连续...

基本概念

更多请查看 什么是事件 故障 在日常运营中,无论什么原因导致业务服务中断、服务品质下降或用户服务体验下降的现象,称为故障,但不包括用户侧环境或用户自身操作引起的问题。故障比事件优先级更高,事件在处理过程中出现影响扩大或恶化时...

操作流程

说明 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。具体操作,请参见 故障演练。步骤七:故障切换 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,...

操作流程

说明 保护组处于 增量复制中 或者已有恢复点之后,您就可以进行故障演练。具体操作,请参见 故障演练。步骤七:故障切换 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,...

算子级别诊断结果

AnalyticDB MySQL版 的SQL诊断功能可以对SQL查询进行Query、Stage和算子(Operator)级别的信息统计,再在统计信息的基础上进行诊断并提供调优建议。本文介绍如何查看和分析算子级别诊断结果。诊断结果类型 说明 查看算子级别诊断结果的...

查看指定报警规则的报警历史

可以查看指定报警规则中的所有故障资源的报警详情和报警图表,及时定位并处理资源故障。操作步骤 登录 云监控控制台。在左侧导航栏,选择 报警服务>报警规则。在 报警规则列表 页面,单击目标报警规则对应 操作 列的 报警历史。您可以...

实例健康诊断

实例健康诊断功能可以对 轻量应用服务器 实例的计算服务状态、网络服务、存储服务和配置管理等进行全方位的诊断,帮助您了解实例的健康状态,及时发现并解决常见的问题。前提条件 轻量应用服务器 实例需处于 运行中 状态。操作场景 推荐您...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 数据库审计 负载均衡 应用高可用服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用