Linux实例负载高问题排查和异常处理

内存使用率过高,可能会出现系统卡顿、内部服务响应速度变慢等问题。I/O使用率过高:一般来说,当前I/O读写≥该云盘I/O的80%时,定义为I/O使用率过高。I/O使用率过高,可能会出现文件读写变慢、应用性能下降或报错等问题问题排查 您可以...

Linux系统的ECS实例运行卡顿,在/var/log/messages...

系统内核问题:当系统内核存在漏洞或者其他问题时,可能会出现hung task故障系统资源紧张:ECS实例中应用或进程占用系统资源使用率(如CPU、内存等)过高时,可能会出现hung task故障。解决方案 出现hung task的原因比较复杂,您可以参考...

ack-node-repairer

当节点出现故障时,自愈系统会自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD会修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要采取修复操作的故障以及具体的修复操作。NPD是Kubernetes节点诊断的工具,...

常见问题概览

下载备份文件 性能、空间与内存 热点问题 其他常见问题 如何排查MongoDB实例负载过高的问题 MongoDB实例内存使用率高问题 MongoDB实例的CPU使用率高问题 MongoDB实例IOPS使用率高问题 MongoDB实例空间使用率高问题什么高可用系统会触发...

集群版-单副本

纯缓存应用 单副本集群版的分片服务器由单节点组成,分片服务器某节点出现故障时,系统会重新拉起一个Redis进程(没有数据),当节点故障业务自动切换完成后,数据将会丢失,有可能流量被冲击到后端数据库,需要做好应用程序的预热保护机制...

内核统一异常框架(UKFEF)

Normal:当前应用进程可能会出现异常。建议对当前应用采取措施,例如 kill、重启或迁移。Fatal:可能会对系统产生致命影响。建议立即进行业务迁移。事件报告 UKFEF将通过以下方式输出事件报告:通过内核日志输出单次事件的详细信息。信息...

回切至本地物理机

如果扩充的是包含系统分区的磁盘,那么扩充的这部分空间会被ECS自动填充给系统分区,这样在恢复到本地的物理机时可能会出现分区越界的问题。如果系统分区相对源端机器被扩容,将会收缩相应的空间,确保和源端机器保持一致。反向注册。确认...

标准版-双副本

当主节点出现故障,自研的HA系统会自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

标准架构

当主节点出现故障,自研的HA系统会自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

部署和使用跨可用区实例

同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统会自动在剩余的可用区中补充计算资源,满足业务对资源的需求。本文介绍如何部署和使用(切流和恢复)跨可用区实例。应用场景 跨可用区部署支持单可用区、跨2个可用区、...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

在使用阿里云服务的过程中我应该避免哪些操作?

6)重置以及更换系统务必要了解的事项 重置以及更换系统会导致被操作磁盘数据跟快照丢失并不可找回,如有重要数据一定要提前备份,谨慎操作。7)Linux系统下不能开启NetWorkManager服务 linux系统请不要开启NetWorkManager服务,该服务会跟...

围绕混沌工程的平台实践

基于监控指标的自动恢复,如果指标触发了恢复规则,系统会自动执行演练恢复操作。基于演练时长的自动恢复。更多信息 关于AHAS Chaos的更多信息,请参见 Chaos Engineering的历史、原则以及实践 和 混沌工程实践经验:如何让系统在生产环境...

节点诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

基于Kubernetes容器集群的容灾架构与方案

备份与恢复(Backup-Restore)如上图所示,在备份与恢复模式下,系统运行时会备份应用和数据,故障或灾难发生时,系统会将备份的应用和数据在另一地点进行恢复,并切换业务流量。由于数据无法实时备份,在恢复数据时会有一定的数据丢失,...

EMR Kafka磁盘故障运维

业务场景 Kafka将日志数据存储到磁盘中,当磁盘出现故障时,导致磁盘IO能力下降、集群吞吐下降、消息读写延时或日志目录offline等问题。这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降,单块盘故障甚至有可能...

如何解决Alibaba Cloud Linux 2中polkit内存泄露问题...

问题现象 符合以下版本的Alibaba Cloud Linux 2操作系统,可能会出现polkit内存泄露,使用的内存可能会超过14 GiB。aliyun_2_1903_x64_20G_alibase_20211216.vhd之前的镜像版本。4.19.91-25.1.al7.x86_64之前的内核版本。问题原因 polkit...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

基础管理FAQ

为防止再次出现这类异常问题,建议您在删除文件系统实例前,先在操作系统中卸载文件系统,然后再删除文件系统。如果还开启了自动挂载配置,您还需要删除或修改自动挂载,取消开机自动挂载文件系统。具体操作,请参见 通过NAS控制台卸载挂载...

应用场景

Node.js 提供的精确到虚拟机级别的深度监控,能够如实的反应应用运行状态,通过配置报警规则,用户可以在发现系统出现故障(内存泄露或者 CPU 热点等)趋势时,通过诊断接口迅速定位故障点。Node.js 性能平台特别适合业务发展迅速、应用...

修改实例维护属性

当宿主机存在故障风险和出现突发故障时,阿里云通过系统事件方式通知宿主机上的用户,您可以响应该系统事件。在您响应该系统事件时,ECS实例的默认行为是自动重启。如果您希望在这种情况下不自动重启ECS实例,可以通过修改维护属性来调整...

强弱依赖治理概述

通过以上对比可以看出,当下游依赖出现问题时,当前系统会受到一些影响,严重影响用户体验的是强依赖,影响较小的则是弱依赖。强弱依赖治理 强弱依赖治理就是提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续...

升级Linux ECS实例内核

升级须知 升级操作系统内核是一个比较复杂和风险较高的操作,可能导致系统不稳定或出现兼容性问题。在进行升级前,建议备份重要数据,了解升级过程和可能出现问题,并谨慎操作。操作步骤 以CentOS和Debian系列操作系统为例,指导您如何...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

虚拟机场景

JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩容等手段保证业务连续性。参数说明如下...

移植问题

本文介绍编译3.x和2.3.0版本的C Link SDK时,可能遇到的问题和解决方法。背景信息 如果您尚未接入物联网平台,推荐使用最新版本的SDK。更多信息,请参见 概述。在Linux系统编译SDK后,运行Demo时,为何出现如core dump等错误?SDK提供的HAL...

Windows实例系统盘异常如何解决?

当磁盘异常时,检测结果将会出现错误提示,以系统盘文件损坏为例,检测结果如下:解决方案 您可以执行以下操作,手动修复系统盘异常。远程连接ECS实例。具体操作,请参见 连接方式概述。以管理员身份,打开CMD命令行窗口。执行如下命令,...

签署代付协议

发起签署时,为什么会出现“身份证号码和社会统一识别代码必须为18位”的提示?A:出现如图提示时,表明您这边前期在认证阿里云账号时,使用其他证件认证,导致系统未能识别您的实名认证信息以及社会统一识别代码等,需要您手动发起 工单...

常见问题

如果您在使用云虚拟主机时遇到网站无法访问、网站访问异常(报错或者缓慢)、FTP使用异常、网站迁移异常、数据库使用问题、主机功能设置问题、耗资源/DDoS/大流量/升级或续费以及产品计费等问题,您可以参考本文方法进行问题排查。...

如何查看Linux系统I/O负载情况?

当循环的向ext3文件系统写数据时,会使Journal size不断增大,到达设置的Journal size时,就会出现问题。解决方案 远程连接Linux系统的ECS实例。具体操作,请参见 连接方式概述。执行如下命令,查看相应分区的Journal size大小。dumpe2fs...

自动或手动主备切换

系统会在Serverless实例出现故障无法访问时,自动切换主备。注意事项 主备实例切换过程中会出现约30~120秒的服务不可用,请确保您的应用程序具有自动重连机制。如果实例下挂载有只读实例,那么主备实例切换后,只读实例的数据会有几分钟的...

出现OOM Killer的原因及解决方案

如果内存回收机制不能处理系统内存不足的情况,则系统会触发OOM Killer(Out of Memory Killer)强制释放进程占用的内存,达到给系统解压的目的。本文介绍Alibaba Cloud Linux操作系统出现OOM Killer的可能原因及解决方案。问题现象 ...

Windows系统使用第三方杀毒防护软件可能出现问题...

一般而言,杀毒软件在正常情况下保护系统不受病毒、木马的攻击影响,但是在某些特殊情况下,可能因为兼容性问题,导致Windows操作系统出现上述异常问题。对此,本文主要介绍如下几点内容,希望对您有所帮助。杀毒软件原理 排查方法 ...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

通过可观测性能力进行故障处理最佳实践

具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...

进入Linux系统的单用户模式

在某些特殊场景下(例如排查Linux实例启动故障、修复系统异常、维护硬盘分区或root用户被锁定,需要修改密码),您可以通过Linux系统系统引导器...说明 您也可以通过卸载系统盘功能来排查启动故障问题,具体操作,请参见 卸载或挂载系统盘。

Windows系统内存分析工具介绍

如果已提交虚拟内存非常接近上限,那么系统会出现性能问题。Windows 2008 R2 打开任务管理器,单击 性能,通过任务管理器查看内存使用情况。还可以添加各类内存指标进行检查,打开任务管理器,依次选择 查看>选择列,添加各类内存指标,请...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 云数据库 RDS 商标服务 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用