ack-node-repairer

当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...

常见问题概览

备份与恢复方案概览 下载备份文件 性能、空间与内存 热点问题 其他常见问题 如何排查MongoDB实例负载过高的问题 MongoDB实例内存使用率高问题 MongoDB实例的CPU使用率高问题 MongoDB实例IOPS使用率高问题 MongoDB实例空间使用率高问题 为...

使用OpenAPI诊断工具进行故障排查

阿里云OpenAPI平台提供使用诊断工具。本文介绍如何使用OpenAPI诊断工具进行故障排查。您可以登录 OpenAPI使用诊断,输入完整的RequestID或SDK报错信息,然后...如果诊断工具仍未能解决您的问题,您可以参考 故障排除、常见问题 获取解决方案。

无法连接Windows实例

步骤七:检查CPU负载是否过高 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不存在,则执行下一步步骤。故障现象 CPU负载过高导致系统无法进行远程连接。解决方法 如果杀毒软件在后台执行,请将杀毒软件升级至最新版本或者...

Linux系统的ECS实例...CPU#0 stuck for 61s”错误怎么

BUG:soft lockup-CPU#0 stuck for 61s 问题原因 该问题通常是由于ECS实例中,系统内核长时间占用CPU资源导致出现软死锁(soft lockup)故障,内核长时间占用CPU资源可能有以下原因:系统负载过高 内核死循环或死锁 内核调度问题 内核出现...

报警设置

订阅事件通知:当 Tair 实例产生了主动运维事件(如实例迁移)、实例发生了故障或触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。常见问题 ...

监控报警概述

实时监控提供终端用户登录云电脑的实时数据(例如用户在线数量、在线时长的前十用户、平均登录时间和云电脑网络延迟分布情况)以及相关故障预警信息,以便快速准确定位,迅速处理故障,避免因资源、网络问题或者外部操作原因造成不必要的...

报警设置

订阅事件通知:当 Redis 实例产生了主动运维事件(如实例迁移)、实例发生了故障或触发了高可用切换,系统将自动发送报警通知,帮助您及时接收报警通知并处理。包含InstanceMaintenance(主动运维事件)、实例异常、实例维护等。常见问题 ...

监控指标说明

通常可以理解为CPU的繁忙程度,和CPU核数相关,Flink里面的CPU Load是CPU Usage/CPU核数。大于这个值,说明CPU处理可能有堵塞。说明 实时计算引擎VVR 6.0.6及以上版本不支持该指标,可查看TM CPU Usage指标进行CPU使用率监控。无 TM CPU ...

开源ChaosBlade与商业化AHAS CHAOS故障演练对比

项目 AHAS CHAOS故障演练 ChaosBlade CPU演练 支持 支持 内存演练 支持 支持 网络演练 支持 支持 应用进程演练 支持 支持 K8s演练 支持 支持 阿里云云服务演练(ECS、Redis)支持 不支持 场景化——微服务强弱依赖演练 支持 不支持 场景化...

诊断项与诊断结果说明

实例健康诊断功能是一种自助诊断方式,可以对实例的系统状态、网络状态、磁盘状态等进行全方位的诊断,帮助您了解实例健康情况,及时发现并解决常见的问题。本文介绍该功能支持的诊断项,并提供了详细的诊断范围及建议操作供您参考。诊断项...

使用云监控功能监控网站环境(部署于ECS实例)

设置进程监控 对于常见的Web应用,设置进程监控,不仅可以实时监控应用进程的运行情况,还有助于排查处理故障。具体操作,请参见 添加进程监控。设置站点监控 在云服务器外层的监控服务,站点监控主要用于模拟真实用户访问情况,实时测试...

诊断项与诊断结果说明

实例健康诊断功能是一种自助诊断方式,可以对实例的计算服务状态、存储服务状态、网络服务状态、实例配置管理和实例操作系统内相关配置进行全方位的诊断,帮助您了解实例的健康情况,及时发现并解决常见的问题。本文介绍轻量应用服务器支持...

Linux实例负载高问题排查和异常处理

本文档介绍Linux云服务器负载高导致ECS实例运行变慢、自动...故障处理 Linux系统ECS实例CPU使用率或CPU负载较高问题的排查及解决方案 如何查看Linux系统网络流量负载情况?如何查看Linux系统I/O负载情况?如何处理系统内存使用率过高问题?

监控、诊断和故障排除

相对于传统应用程序,开发云端应用虽然降低了用户在基础设施搭建、运维等方面的成本,但却增大了监控、诊断和故障排查的难度。OSS存储服务为您提供了丰富的监控和日志信息,帮助您深刻洞察程序行为,及时发现并快速定位问题。本文主要描述...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

步骤七:故障切换

保护组进入增量复制状态后,您就可以进行故障切换操作。本文介绍故障切换和恢复的基本操作。故障切换类型 数据同步后切换 该故障切换会先停止保护组中被保护的实例,并且等到所有被保护的实例停止后再进行最后一轮数据同步,等待数据同步...

常见问题

网站耗资源(客户程序故障常见问题 通过Robots协议屏蔽搜索引擎抓取网站内容 流量统计常见问题 云虚拟主机可以升级到云服务器ECS吗?如何取消云虚拟主机的自动续费功能?产品计费问题 计费常见问题 安装网站程序问题 安装完WordPress程序...

Pod异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常...

运营商回执错误码

本文为您介绍了运营商回执常见的错误码。说明 调用接口成功(运营商返回200),语音呼叫成功。调用接口成功后,运营商异步返回的语音呼叫状态错误码如下:状态值 状态含义 错误描述 200000 用户听完语音 单呼时用户听完语音 200001 用户...

如何选择实例规格

在面向事务型场景下,一般比较常见是以CPU瓶颈为主,可通过业务的QPS预期进行估算。按照常见的偏交易混合读写场景,单核估算可支持的QPS为1000~3000,按照独享规格polarx.x8.xlarge.2e单节点预估可支持1~2万的QPS。说明 业务的流量模型和...

Pod异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常...

计算资源

计算资源常指用于执行计算任务的软硬件资源,包括CPU、GPU、内存、操作系统和特定计算任务的软硬件环境等。计算资源的主要作用是执行各种计算任务,包括数据处理、算法运算、业务逻辑执行等。计算资源的性能和容量直接影响到系统的计算能力...

系统运维工具集SysAK使用说明

SysAK(System Analyse Kit)是阿里云操作系统提供的一个全方位的系统运维工具集,可以覆盖系统的日常监控、线上问题诊断和系统故障修复等常见运维场景。本文为您介绍SysAK的安装部署和使用方法。运维场景 阿里云通过对百万服务器运维经验...

DNS最佳实践

Pod访问集群外部域名时,优先使用FQDN类型域名访问,这类域名通过常见域名最后加半角句号(.)的方式来指定地址,可以避免 search 搜索域拼接带来的多次无效搜索,例如需要访问 www.aliyun.com ,则优先使用FQDN类型域名 www.aliyun.com. ...

核心自治技术案例解析

现实中常见的workload场景,如毛刺特征、周期性特征、趋势性特征、均值偏移特征等,异常检测服务都能够准确自动识别,并支持多种时序特征叠加识别,识别出异常后,会触发基于根因的全局诊断分析,以及后续的异常恢复、优化自治场景。故障自...

DDH常见问题

本文介绍DDH相关的常见问题及解决方案。DDH相关的常见问题及解决方案如下:什么是专有宿主机DDH?DDH有什么优势?在什么场景下需要购买DDH?DDH是裸机产品吗?DDH与弹性裸金属服务器有什么区别?怎么创建和释放DDH?怎么查看每台DDH上有...

ECS选型推荐配置

例如,某个节点只能分配整数倍的CPU,而其应用程序只需要少量CPU,那么剩余的CPU资源将被浪费。使用大规格ECS的优势:网络优势:网络带宽大,对于大带宽类的应用,资源利用率高。同时,容器在一台ECS内建立通信的比例增大,将减少网络传输...

NVMe协议介绍

NVMe共享盘可以帮助应用实现高可用、高并发、可扩展的业务,可以帮助基于传统SAN的业务无缝上云,共享盘常见的应用场景包括数据共享、高可用故障转移、分布式缓存加速、机器模型训练等。数据共享 NVMe最简单的应用场景为数据共享,当数据被...

节点诊断

容器智能运维平台 构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。基于专家经验和AI智能诊断两种诊断模式,节点诊断可以深入定位问题根因。节点诊断包括诊断检查项和诊断根因。诊断检查项:包括Node检查、...

如何使用Prometheus监控Windows

磁盘指标 磁盘是计算机外部存储设备的总称,常见的磁盘有 传统硬盘HDD、混合硬盘HHD 和 固态硬盘SSD,您可以关注以下主要指标。指标名称 指标级别 指标来源 指标说明 剩余磁盘空间(%)Critical WMI(PercentFreeSpace)操作系统需要保持...

如何使用Prometheus监控Windows

磁盘指标 磁盘是计算机外部存储设备的总称,常见的磁盘有 传统硬盘HDD、混合硬盘HHD 和 固态硬盘SSD,您可以关注以下主要指标。指标名称 指标级别 指标来源 指标说明 剩余磁盘空间(%)Critical WMI(PercentFreeSpace)操作系统需要保持...

什么是应用监控

告警集成 ARMS监控针对JVM、主机、接口服务情况等指标类型,预置了50种以上的告警规则,您可以对这些规则进行灵活的调整与组合,并通过ARMS告警管理,实现告警的收敛、通知、升级、协同处理,确保及时发现并修复线上故障。开源集成 ARMS...

常见问题

磁盘/CPU/内存/带宽问题 Windows实例负载的查询及分析 Linux实例CPU负载的查询和案例分析 如何配置Windows实例的虚拟内存 入网带宽和出网带宽 Linux实例网络流量负载情况的查询和案例分析 Linux实例中如何查看物理CPU和内存信息 Linux实例...

DAS Auto Scaling弹性能力

然而随着用户业务的变化,在09:00时CPU再一次打高出现资源紧张的情况,此时的流量分析发现以写流量为主,DAS Auto Scaling算法判断通过提升计算资源规格缓解CPU资源,且实例的CPU利用率下降到50%,解决了第二次CPU紧张的问题。从这个实例的...

常见问题

云数据库Redis版是否存在CPU处理能力、带宽和连接数等限制?单个实例有多少个数据库?云数据库Redis版是否都有主从节点?云数据库Redis版能否配置从节点数量?云数据库Redis版是否开放了从节点?云数据库Redis版是否支持主从节点的故障切换...

使用负载感知调度

ACK集群Pro版 调度器的负载感知调度功能会根据节点的实际负载情况,将Pod优先调度到负载较低的节点,以实现节点负载均衡,降低节点故障风险。前提条件 已安装ack-koordinator组件,且版本为1.1.1-ack.1及以上。具体操作,请参见 ack-...

资源伸缩和系统扩展

不同的应用部署方式需要使用不同的伸缩方案,常见的伸缩方案主要有以下几种:云服务自动扩缩 在阿里云上进行自动伸缩依赖的云服务是 弹性伸缩 ESS(Auto Scaling),是指根据业务需求和策略自动调整计算能力(即实例数量)的服务。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
应用身份服务 (IDaaS) 数据库自治服务 应用高可用服务 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用