Linux系统的ECS实例运行卡顿,在/var/log/messages...

系统内核问题:当系统内核存在漏洞或者其他问题时,可能会出现hung task故障系统资源紧张:ECS实例中应用或进程占用系统资源使用率(如CPU、内存等)过高时,可能会出现hung task故障。解决方案 出现hung task的原因比较复杂,您可以参考...

内核统一异常框架(UKFEF)

Normal:当前应用进程可能会出现异常。建议对当前应用采取措施,例如 kill、重启或迁移。Fatal:可能会对系统产生致命影响。建议立即进行业务迁移。事件报告 UKFEF将通过以下方式输出事件报告:通过内核日志输出单次事件的详细信息。信息...

回切至本地物理机

如果扩充的是包含系统分区的磁盘,那么扩充的这部分空间会被ECS自动填充给系统分区,这样在恢复到本地的物理机时可能会出现分区越界的问题。如果系统分区相对源端机器被扩容,将会收缩相应的空间,确保和源端机器保持一致。反向注册。确认...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

部署和使用跨可用区实例

同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统会自动在剩余的可用区中补充计算资源,满足业务对资源的需求。本文介绍如何部署和使用(切流和恢复)跨可用区实例。应用场景 跨可用区部署支持单可用区、跨2个可用区、...

围绕混沌工程的平台实践

原则3在生产环境中运行实验 混沌工程推荐故障演练是在生产环境中进行,主要的原因有以下两点:系统的行为根据环境和流量模式的变化,例如系统依赖的组件在测试环境和生产环境有比较大的差异。系统的监控和人员的应急响应在测试环境和...

在使用阿里云服务的过程中我应该避免哪些操作?

否则,阿里云可能无法解决由以下违规操作引起的问题:1)Windows系统中的PV Drivers 程序不可删除 PV Drivers程序为服务器虚拟化驱动程序,请不要针对该程序进行任何操作,如果删除导致服务器出现异常。2)云服务器禁止更改网卡的MAC地址 ...

ECS实例操作系统内部(GuestOS)常见问题与修复方案

本文介绍ECS实例操作系统内部(GuestOS)的常见问题,以及对应的修复方案。...检查磁盘容量 Windows系统有时会出现C盘的磁盘空间不断减小的情况,导致系统不能正常操作。具体操作,请参见 Windows系统临时文件占用过多磁盘空间。

基础管理FAQ

为防止再次出现这类异常问题,建议您在删除文件系统实例前,先在操作系统中卸载文件系统,然后再删除文件系统。如果还开启了自动挂载配置,您还需要删除或修改自动挂载,取消开机自动挂载文件系统。具体操作,请参见 通过NAS控制台卸载挂载...

ack-node-repairer

当节点出现故障时,自愈系统会自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要采取修复操作的故障以及具体的修复操作。NPD是Kubernetes节点诊断的工具,...

Linux系统的ECS实例系统无响应,系统日志中出现“BUG:...

soft lockup-CPU#0 stuck for 61s 问题原因 该问题通常是由于ECS实例中,系统内核长时间占用CPU资源导致出现软死锁(soft lockup)故障,内核长时间占用CPU资源可能有以下原因:系统负载过高 内核死循环或死锁 内核调度问题 内核出现故障 ...

常见网络问题

常见网络问题概览 问题 诊断工具检测 客户端日志 问题分析及排查方法 控制台显示 打开备份库失败 通过诊断工具检测,出现如下问题:i/o timeout An existing connection was forcibly closed by the remote host No connection could be ...

升级Linux ECS实例内核

升级须知 升级操作系统内核是一个比较复杂和风险较高的操作,可能导致系统不稳定或出现兼容性问题。在进行升级前,建议备份重要数据,了解升级过程和可能出现问题,并谨慎操作。操作步骤 以CentOS和Debian系列操作系统为例,指导您如何...

强弱依赖治理概述

强弱依赖治理的应用 强弱依赖治理主要可以被应用到以下场景:系统改造验收:对于分布式系统,至少在运行态中,不会因为依赖的系统后台出现故障,引起当前应用出现系统级可用性的故障,例如进程挂掉、频繁FullGC、负载飙高等,何时何地都应...

如何处理Windows Server 2003/2008系统的ECS实例虚拟...

相比于Linux系统,Windows系统由于图形化界面操作相对容易而受到许多用户的青睐,在购买ECS实例时,需要至少1 GiB内存才能选择Windows系统,1 GiB内存对于系统运行来说是足够了,但是在配置环境、安装更多软件后就会出现内存不足的情况。...

诊断命令

当使用 mPaaS 工具出现问题时,您可以执行 mpaas diagnose report[OPTIONS]诊断命令生成诊断报告,进而进行问题排查。Options-o,-output=PATH 诊断报告的输出目录(默认为当前目录)通用选项参数-h,-help 显示某个命令的使用帮助信息-...

常见问题

更多产品定价常见问题 挂载访问FAQ Linux挂载NFS文件系统常见问题 Windows挂载SMB文件系统常见问题 Linux挂载SMB文件系统常见问题 Windows挂载NFS文件系统常见问题什么卸载旧NAS并重新挂载新NAS后,容器Pod仍将数据写入旧NAS?...

出现OOM Killer的原因及解决方案

开启THP会出现内存膨胀(memory bloating),从而导致OOM Killer,您可以对THP进行调优。具体操作,请参见 Alibaba Cloud Linux系统中与透明大页THP相关的性能调优方法。内存节点(Node)的内存不足 内存节点(Node)的内存不足导致的OOM ...

虚拟机场景

JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩容等手段保证业务连续性。参数说明如下...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

故障演练

故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...

解决Windows实例中无法查看数据盘问题

在计算机管理页面,选择 系统工具>设备管理器>磁盘驱动器。找到已禁用的驱动,右键单击选择 启用设备。在磁盘管理页面查看数据盘可以正常显示。新购买磁盘未进行分区和格式化 警告 磁盘分区、格式化等操作风险比较高,请慎重操作。操作前请...

使用域名检测工具排查域名问题

检测结果及问题排查 以下列出了检测结果中可能会出现问题、原因及解决方法供您参考。有关DNS检查的解析生效情况 已生效:表示本地电脑或当地运营商的访问探测结果。例如,用户在北京,使用自己的电脑访问域名,如果此字段的检测结果为已...

初始化小于等于2 TiB数据盘(Linux)

一块全新的数据盘挂载到ECS实例后,还不能直接存储数据,通常您需要在数据盘进行分区、文件系统格式化、挂载文件系统等初始化操作后,才能供系统读写数据。本文介绍如何在Linux系统中初始化一块小于等于2 TiB的数据盘。前提条件 数据盘已...

全链路专家服务内容说明

服务说明 阿里云专家服务充分利用阿里云专家服务团队长期沉淀的丰富案例经验和专家工具平台,帮助阿里云用户进行云上产品相关的产品咨询、架构设计、性能调优和疑难诊断等工作,并提供针对性的解决方案、最佳实践、资源风险评估和赋能专场...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

移植问题

本文介绍编译3.x和2.3.0版本的C Link SDK时,可能遇到的问题和解决方法。背景信息 如果您尚未接入物联网平台,推荐使用最新版本的SDK。更多信息,请参见 概述。在Linux系统编译SDK后,运行Demo时,为何出现如core dump等错误?SDK提供的HAL...

售后问题排查工具

阿里云的售后问题排查工具即智能在线系统,以下简称智能在线。当您在使用CDN过程中遇到任何问题,您可以尝试使用阿里云提供的智能在线系统,帮您快速定位问题并解决。典型场景 网站无法访问:域名通过CDN产品加速之后出现网站无法访问的...

签署代付协议

发起签署时,为什么会出现“身份证号码和社会统一识别代码必须为18位”的提示?A:出现如图提示时,表明您这边前期在认证阿里云账号时,使用其他证件认证,导致系统未能识别您的实名认证信息以及社会统一识别代码等,需要您手动发起 工单...

内网访问安全常见问题

一般情况下出现这种问题的电脑大部分是Windows 11系统。因为Windows 11系统的浏览器有安全DNS配置,需要关掉安全DNS才可以正常访问。如果Windows11系统DNS配置被安全软件或者是手动修改成使用DoH,需要改成非加密的模式。内网访问不通,...

自动或手动主备切换

系统会在Serverless实例出现故障无法访问时,自动切换主备。注意事项 主备实例切换过程中会出现约30~120秒的服务不可用,请确保您的应用程序具有自动重连机制。如果实例下挂载有只读实例,那么主备实例切换后,只读实例的数据会有几分钟的...

通过可观测性能力进行故障处理最佳实践

具体使用时可将这些指标大致分为以下三类:一级指标:建议将没有歧义的、可衡量业务正常运行的指标作为一级指标,这些指标出现异常则一定是业务链路出现问题一般可用做监控报警项。例如,消息收发TPS超过规格限制可触发实例流控,您可以...

常见问题

产品常见问题 EMAS崩溃保护机制导致SDK无法初始化且功能不可用 阿里百川账号如何在阿里云平台使用 覆盖patch需要重启App生效吗 热修复支持多进程吗 后台上传补丁的时候出现,找不到补丁的情况 补丁发错了怎么办,是否有相应办法补救 针对同...

更新软件

重要 由于该命令可能更新系统内核,导致出现系统无法启动、内核与软件不兼容等问题。建议您完成不升级系统内核的配置后,再运行该命令。yum update 执行以下命令,查看软件版本号。软件名>-V#请将<软件名>替换为您需要查看版本号的软件 ...

可观测性的设计原则

监控系统的指标可以让组织了解系统的健康状况和性能情况,以便在系统出现异常时快速发现问题。监控指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、Zabbix等,以及阿里云提供...

无法删除 Windows 实例中的文件

有时候在 Windows 系统遇到无法删除文件,一般系统会提示文件正在被另一个人或程序使用,或者提示文件不存在,例如:解决方法 您可以使用以下几种方法来删除此类文件:删除占用该文件的进程 使用系统自带工具强制删除 使用第三方工具...

JVM内存配置最佳实践

如果JVM堆空间大小设置过大,可能导致Linux系统的OOM Killer被激活,进而结束(kill)Java应用进程,在容器环境下可能表现为频繁异常重启。本文介绍在容器环境下JVM堆参数的配置建议,以及OOM的相关常见问题。通过-XX:MaxRAMPercentage...

主机健康诊断

物联网边缘计算的主机管理页面为您提供了主机健康诊断功能,可以对主机的系统配置、系统运行状态、系统软件运行状态、主机网络状态、主机历史运行状态进行全方位的诊断,帮助您了解主机的健康状态,及时发现并解决常见的问题。使用限制 仅...

Windows系统内存分析工具介绍

如果已提交虚拟内存非常接近上限,那么系统会出现性能问题。Windows 2008 R2 打开任务管理器,单击 性能,通过任务管理器查看内存使用情况。还可以添加各类内存指标进行检查,打开任务管理器,依次选择 查看>选择列,添加各类内存指标,请...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云安全中心 负载均衡 商标服务 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用