节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

节点异常问题排查

常见排查方法 节点故障诊断 当节点出现故障时,您可以使用容器服务ACK提供的故障诊断功能,一键诊断节点异常。登录 容器服务管理控制台。在控制台左侧导航栏,单击 集群。在 集群列表 页面,单击目标集群名称或者目标集群右侧 操作 列下的 ...

Linux系统网络进程不存在

问题描述 Linux系统内对应的网络进程不存在,且网络配置为DHCP,则在IP地址的租约到期之后,出现无法续租导致网络中断的问题。解决方案 说明 如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。...

Linux实例在修改文件时遇到“Read-only file system*...

该实例的/etc/fstab 文件中的根文件系统/未配置挂载,导致重启实例后,根文件系统/被默认为只读挂载 ro,使系统进程因无法正常写入文件,导致实例启动失败或系统服务无法正常运行。解决方案 修改/etc/fstab中文件系统挂载选项 使用VNC...

在集成移动推送辅助通道后显示"register not in main ...

问题详述 注册推送辅助通道,打印了如下日志:...问题原因 移动推送除了应用进程外还有一个后台进程channel,而辅助通道的注册只在主进程执行,在其他进程打印这条日志,表示在该进程不执行通道注册。所以这条日志是正常的,没有问题

Linux系统CPU使用率和负载高排查方法

操作成功后,界面会出现类似 Send pid 23 signal[15/sigterm]的提示信息,按Enter键确认即可。常见CPU资源过高案例分析 案例一:CPU使用率较低但负载较高 问题现象 当前Linux系统没有业务程序运行。通过top命令观察,发现CPU使用率不高,...

Linux系统的ECS实例CPU使用率或CPU负载较高问题的排查...

操作成功后,界面会出现类似 Send pid 23 signal[15/sigterm]的提示信息,按Enter键确认即可。常见CPU资源过高案例分析 案例一:CPU使用率较低但负载较高 问题现象 当前Linux系统没有业务程序运行。通过top命令观察,发现CPU使用率不高,...

如何使用Prometheus监控Windows

除了需要磁盘的常规进程之外,核心系统进程还在磁盘上存储日志和其他类型的数据。如果可用磁盘空间下降到15%以下,Windows将发出警告。磁盘空闲时间(%)Major WMI(PercentIdleTime)表示磁盘空闲的时间百分比。如果将页面文件托管在与...

如何使用Prometheus监控Windows

除了需要磁盘的常规进程之外,核心系统进程还在磁盘上存储日志和其他类型的数据。如果可用磁盘空间下降到15%以下,Windows将发出警告。磁盘空闲时间(%)Major WMI(PercentIdleTime)表示磁盘空闲的时间百分比。如果将页面文件托管在与...

自助诊断系统

由于存在未支付订单时不能升级配置,因此会出现 错误提示,您可以利用自主诊断系统排查错误原因。有关如何正确升级实例配置,请参见 包年包月实例升级配置。步骤一:提交自动诊断 完成以下操作,提交自动诊断:登录 ECS管理控制台。在左侧...

强弱依赖治理概述

强弱依赖治理的应用 强弱依赖治理主要可以被应用到以下场景:系统改造验收:对于分布式系统,至少在运行态中,不会因为依赖的系统后台出现故障,引起当前应用出现系统级可用性的故障,例如进程挂掉、频繁FullGC、负载飙高等,何时何地都应...

镜像检测概述

如果在制作过程中,强制系统关机等操作导致Sysprep进程中止,可能导致实例启动异常。请重新制作镜像,注意不要中断系统的Sysprep进程。具体操作,请参见 创建虚拟机并安装操作系统。GUESTOS.Update 检测镜像制作时Update进程是否完成。...

【组件升级】NPD升级公告

背景信息 低于v1.2.8版本的ack-node-problem-detector组件默认开启文件系统句柄巡检项(check_fd),check_fd的进程在读取大内核数据时,触发部分操作系统内核版本缺陷,可能造成僵尸进程堆积、甚至宕机的风险。升级组件 为避免低...

如何查看Linux系统I/O负载情况?

当循环的向ext3文件系统写数据时,会使Journal size不断增大,到达设置的Journal size时,就会出现问题。解决方案 远程连接Linux系统的ECS实例。具体操作,请参见 连接方式概述。执行如下命令,查看相应分区的Journal size大小。dumpe2fs...

实例的节点故障处理机制

当使用Connection String URI进行连接时,如果某个节点出现故障,不会因为节点的切换而影响应用的读写操作,详情请参见 副本集实例连接说明。分片集群实例 图 2.分片集群架构 分片集群实例的Shard节点和ConfigServer节点均采用三节点副本集...

Alibaba Cloud Linux 2系统的ECS实例中Page Fault异常...

问题描述 在符合如下条件的Alibaba Cloud Linux 2实例中,系统运行时出现系统宕机问题。镜像:Alibaba Cloud Linux 2.1903 LTS 64位。内核:kernel-4.19.91-23.al7及之前的内核版本。系统宕机,且出现如下调用栈信息。[332.057218]watchdog...

响应云盒维修事件

向您发送ECS故障 事件(Reboot事件)通知,收到ECS故障事件通知后,您可以响应故障事件并按照建议进行处理,例如:将现有业务迁移到冗余资源保证业务正常运行,将出现故障风险的ECS实例作为备机(备机仍受阿里云智能运维系统的检测)。...

什么实例发生主备切换?

实例异常:阿里云检测到实例发生故障,无法正常使用时,系统会立即触发主备切换,及时恢复实例,缩短故障影响时长。宿主机下线或实例异常导致的主备切换以站内信或邮件等形式通知到您,通知内容如下:【阿里云】尊敬的*:您的云数据库...

Windows系统使用第三方杀毒防护软件可能出现问题...

一般而言,杀毒软件在正常情况下保护系统不受病毒、木马的攻击影响,但是在某些特殊情况下,可能因为兼容性问题,导致Windows操作系统出现上述异常问题。对此,本文主要介绍如下几点内容,希望对您有所帮助。杀毒软件原理 排查方法 ...

自动/手动主备切换

注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。自动主备切换 PolarDB 采用双活(Active-Active)的高可用集群架构。当系统发生故障时,可读写的主节点和只读节点...

自动/手动主备切换

注意事项 不论是自动切换还是手动切换,切换过程中,都可能会出现30秒左右的闪断,因此切换前请务必确保应用具备重连机制。自动主备切换 PolarDB 采用双活(Active-Active)的高可用集群架构。当系统发生故障时,可读写的主节点和只读节点...

如何处理系统内存使用率过高问题

问题现象 使用Linux系统的ECS实例时,出现系统卡顿、内部服务响应速度变慢等问题。通过实例健康诊断显示:该实例当前内存的使用率已超过80%。可能原因 ECS实例中存在异常的进程或服务,占用大量内存,导致内存使用率过高。一般来说,当内存...

Resource Manager

内存限制方式 Resource Manager守护进程会随着集群启动而建立,同时对RW、RO以及Standby节点起作用。可以通过修改以下参数改变Resource Manager的行为。当前Resource Manager限制内存的方式为:在集群内存使用超过Resource Manager参数设定...

Resource Manager

过多使用动态内存,可能导致内存使用量超过操作系统限制,触发内核内存限制机制,造成集群进程异常退出,集群重启,引发集群不可用的问题进程私有内存MemoryContext管理的内存可以分为以下两部分:工作计算区域内存:业务运行所需的...

进阶指南

rom 在强制升级后,会出现解析包失败问题。发生该问题的原因是,在部分 rom 中,安装包时会访问相应的 App 进程。而强制升级会强制结束 App 进程,所以导致解析包失败。虽然这种 rom 定制行为本身是不符合原生 Android 的行为,但您仍可以...

如何修复Linux系统中已知的系统软件缺陷?

CentOS/RHEL 7系统的ECS实例长期运行一段时间后,SSH远程连接登录缓慢 问题现象 CentOS/RHEL 7系统的ECS实例长期运行一段时间后,可能出现SSH远程连接登录缓慢,查看系统进程 CPU使用率发现 systemd-logind 进程占用100%CPU的现象,同时...

Pod诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...

节点诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

移动推送如何保活

解决方案 移动推送可以提供如下方式保持App在线运行:系统版本小于5.0,ChannelService创建守护进程进行保活(保持应用运行状态)。5.0呢 ChannelService注册系统闹钟,定时唤醒自身。监听系统广播(网络切换、手机解锁、开机、卸载应用...

如何避免多进程/多客户端并发写同一日志文件可能出现...

问题现象 文件存储 NAS(Apsara File Storage NAS)为多客户端提供了统一名字空间的文件共享读写能力,但在多进程/多客户端并发写同一个文件的场景中(典型的例如并发写同一个日志文件),各进程分别维护了独立的文件描述符及写入位置等上...

ECS实例的服务进程自动关闭,如何排查?

本文主要介绍ECS服务进程关闭的排查思路...检查系统内部是否有异常的木马或者挖矿进程,有些恶意进程会 kill 掉正常的应用程序。如何判断是否有挖矿进程,请参见 如何检测服务器是否被挖矿?解决方法请参见 ECS实例感染木马病毒后的解决方法。

异常:内存溢出OutOfMemoryException

问题现象 机器人在执行任务时,有时会出现内存不足错误导致机器人闪退的问题问题排查 1.查看任务管理器-详细信息,查看chrome.exe进程是否为多个,若有多个chrome进程,则需要排查代码中是否有重复打开多个chrome网页未关闭的逻辑,需要...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式以 短信或 站内信、邮件等形式通知到您,...

主备切换

实例底层主机故障 阿里云检测到实例底层主机发生故障,例如进程异常中断、实例负载过高导致内存异常等无法正常使用时,系统会立即触发主备切换,及时恢复实例,降低故障影响时长。此类触发方式以 短信或 站内信、邮件等形式通知到您,...

内核统一异常框架(UKFEF)

Normal:当前应用进程可能会出现异常。建议对当前应用采取措施,例如 kill、重启或迁移。Fatal:可能会对系统产生致命影响。建议立即进行业务迁移。事件报告 UKFEF将通过以下方式输出事件报告:通过内核日志输出单次事件的详细信息。信息...

如何修复Linux实例中缺失的关键系统目录或文件?

在执行 步骤四:进行对应的操作 中,可能会出现以下问题。执行 chroot/mnt 命令失败,提示 chroot:failed to run command/bin/bash:No such file or directory 错误,说明系统盘的Bash环境已经被破坏。执行 cat/var/log/message 可以看到...

常见问题

网站访问问题 网站无法访问或无法正常显示 网站无法访问的常见问题及解决方法 访问网站不能正常显示图片或显示不完整的原因 访问网站提示“该页面暂时无法访问”访问网站出现乱码的现象 Linux系统云虚拟主机通过网站后台上传文件异常 访问...

代码多副本功能

在NUMA架构(尤其是ARM实例)中,不同NUMA节点具有各自的本地内存,当一个NUMA节点上的程序或进程需要访问其他NUMA节点的代码段时,就引入额外的延迟和性能开销。通过代码多副本功能,可以将远程节点的代码段复制到本地节点,避免了跨...

云助手概述

云助手是专为云服务器ECS打造的原生自动化运维工具,免密码、免登录、无需使用跳板机,即可批量执行命令(Shell、PowerShell、Bat等),实现自动化运维脚本、轮询进程、安装卸载软件、启动或停止服务、安装补丁或安装安全更新等任务。...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
负载均衡 商标服务 云安全中心 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用