Linux实例负载高问题排查和异常处理

内存使用率过高,可能会出现系统卡顿、内部服务响应速度变慢等问题。I/O使用率过高:一般来说,当前I/O读写≥该云盘I/O的80%时,定义为I/O使用率过高。I/O使用率过高,可能会出现文件读写变慢、应用性能下降或报错等问题问题排查 您可以...

Linux系统的ECS实例运行卡顿,在/var/log/messages...

系统内核问题:当系统内核存在漏洞或者其他问题时,可能会出现hung task故障系统资源紧张:ECS实例中应用或进程占用系统资源使用率(如CPU、内存等)过高时,可能会出现hung task故障。解决方案 出现hung task的原因比较复杂,您可以参考...

ack-node-repairer

当节点出现故障时,自愈系统会自动对故障所在节点触发相应的修复操作。当故障被修复后,NPD会修改故障状态,达到故障检测以及修复的闭环。运维人员也可以自定义需要采取修复操作的故障以及具体的修复操作。NPD是Kubernetes节点诊断的工具,...

内核统一异常框架(UKFEF)

Normal:当前应用进程可能会出现异常。建议对当前应用采取措施,例如 kill、重启或迁移。Fatal:可能会对系统产生致命影响。建议立即进行业务迁移。事件报告 UKFEF将通过以下方式输出事件报告:通过内核日志输出单次事件的详细信息。信息...

回切至本地物理机

如果扩充的是包含系统分区的磁盘,那么扩充的这部分空间会被ECS自动填充给系统分区,这样在恢复到本地的物理机时可能会出现分区越界的问题。如果系统分区相对源端机器被扩容,将会收缩相应的空间,确保和源端机器保持一致。反向注册。确认...

标准版-双副本

当主节点出现故障,自研的HA系统会自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

标准架构

当主节点出现故障,自研的HA系统会自动进行主从切换,保证业务平稳运行。数据可靠 默认开启数据持久化功能,数据全部落盘。支持数据备份功能,用户可以针对备份集回滚实例或者克隆实例,有效地解决数据误操作等问题。同时,在支持容灾的...

部署和使用跨可用区实例

同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统会自动在剩余的可用区中补充计算资源,满足业务对资源的需求。本文介绍如何部署和使用(切流和恢复)跨可用区实例。应用场景 跨可用区部署支持单可用区、跨2个可用区、...

如何排查Java场景下故障注入不生效的问题

在对Java进程注入故障时,可能会出现故障注入失败的情况。为解决此类问题,在创建或编辑演练时,您可以在故障执行阶段选择开启Debug模式,并通过相关的日志信息来了解故障注入失败的原因。开启Debug模式 在查看目标演练的故障注入日志前,...

配置直播转点播

直播转点播是将直播流同步录制为点播视频,并支持媒资管理、媒体处理(转码、内容审核、智能封面等AI处理)、内容制作(云剪辑)、CDN分发加速等一系列操作。您可通过控制台配置工作流自动处理,也可通过API/SDK灵活触发。本文为您介绍直播...

在使用阿里云服务的过程中我应该避免哪些操作?

6)重置以及更换系统务必要了解的事项 重置以及更换系统会导致被操作磁盘数据跟快照丢失并不可找回,如有重要数据一定要提前备份,谨慎操作。7)Linux系统下不能开启NetWorkManager服务 linux系统请不要开启NetWorkManager服务,该服务会跟...

ECS实例操作系统内部(GuestOS)常见问题与修复方案

本文介绍ECS实例操作系统内部(GuestOS)的常见问题,以及对应的修复方案。...检查磁盘容量 Windows系统有时会出现C盘的磁盘空间不断减小的情况,导致系统不能正常操作。具体操作,请参见 Windows系统临时文件占用过多磁盘空间。

围绕混沌工程的平台实践

基于监控指标的自动恢复,如果指标触发了恢复规则,系统会自动执行演练恢复操作。基于演练时长的自动恢复。更多信息 关于AHAS Chaos的更多信息,请参见 Chaos Engineering的历史、原则以及实践 和 混沌工程实践经验:如何让系统在生产环境...

实例启动异常常见错误与对应解决方案

针对实例启动过程中因操作系统内配置异常、异常关机等问题导致操作系统无法正常启动的情况,您可以通过VNC登录实例发现的启动异常或者实例健康诊断工具返回的异常字段,在本文查看此类问题的解决方案。Windows 1662001135:Windows系统因...

节点诊断

节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...

EMR Kafka磁盘故障运维

业务场景 Kafka将日志数据存储到磁盘中,当磁盘出现故障时,导致磁盘IO能力下降、集群吞吐下降、消息读写延时或日志目录offline等问题。这些情况有可能影响到线上业务平稳运行、数据丢失、Kafka集群容错能力下降,单块盘故障甚至有可能...

设计方案

容错 容错是指在分布式系统中,系统出现故障时,通过设计和实现可靠的机制和策略,使系统能够自动检测、排除或者纠正错误,保证系统能够正常运行,从而提高系统的可靠性和稳定性。容量 容量是在一定时间内,系统能够处理的最大工作量或数据...

基础管理FAQ

为防止再次出现这类异常问题,建议您在删除文件系统实例前,先在操作系统中卸载文件系统,然后再删除文件系统。如果还开启了自动挂载配置,您还需要删除或修改自动挂载,取消开机自动挂载文件系统。具体操作,请参见 通过NAS控制台卸载挂载...

关于域名下线(OFFLINE)规则调整的公告

掉备案 问题现象:当您的域名出现掉备案时,系统会以短信或邮件的方式提醒您尽快完成备案。说明 掉备案是指因为您备案的主体(包括但不限于备案所有人、备案主体联系方式、备案域名接入商、网站、网站业务)出现变更导致域名备案失效(查询...

视频直播鉴权功能相关问题

鉴权功能默认为开启状态,建议您保持默认开启状态,否则会出现直播被盗录、盗播的风险。如果您想要关闭鉴权功能,需要了解盗刷风险并在控制台 URL鉴权 页面签署《直播服务关闭URL鉴权免责协议》。鉴权功能默认为开启状态,但是配置鉴权auth...

集成Flutter框架直播推流SDK

Android端,在混淆规则文件中配置如下规则:说明 如果APP已开启混淆,则必须配置混淆规则,否则使用直播推流SDK会出现崩溃问题。最新混淆配置,请参见DEMO源码。keep class org.webrtc.*{*;}-keep class com.alivc.*{*;}-keep class ...

强弱依赖治理概述

通过以上对比可以看出,当下游依赖出现问题时,当前系统会受到一些影响,严重影响用户体验的是强依赖,影响较小的则是弱依赖。强弱依赖治理 强弱依赖治理就是提前发现因为依赖问题可能导致的故障,避免依赖故障影响用户体验,积累数据持续...

高频率智能审核解决方案

操作步骤 说明 前提条件:开通直播服务并完成默认的OSS授权,详细操作请参见 开通与购买视频直播,开通成功后,系统会问题图片保存到您的OSS中。准备一个HTTP Server作为接收回调的服务。登录 视频直播控制台。在左侧导航选择 域名管理>...

Windows系统使用第三方杀毒防护软件可能出现问题...

一般而言,杀毒软件在正常情况下保护系统不受病毒、木马的攻击影响,但是在某些特殊情况下,可能因为兼容性问题,导致Windows操作系统出现上述异常问题。对此,本文主要介绍如下几点内容,希望对您有所帮助。杀毒软件原理 排查方法 ...

如何处理Windows Server 2003/2008系统的ECS实例虚拟...

相比于Linux系统,Windows系统由于图形化界面操作相对容易而受到许多用户的青睐,在购买ECS实例时,需要至少1 GiB内存才能选择Windows系统,1 GiB内存对于系统运行来说是足够了,但是在配置环境、安装更多软件后就会出现内存不足的情况。...

升级Linux ECS实例内核

升级须知 升级操作系统内核是一个比较复杂和风险较高的操作,可能导致系统不稳定或出现兼容性问题。在进行升级前,建议备份重要数据,了解升级过程和可能出现问题,并谨慎操作。操作步骤 以CentOS和Debian系列操作系统为例,指导您如何...

直播互动消息常见问题

本文主要介绍使用新版直播互动消息中遇到的常见问题直播互动消息创建群组后,如果没有人加入群组是否失效?不会失效。创建后将群组信息存储到后端存储服务,直到用户调用删除该群组。直播互动消息支持创建多少群组数?每个群组最多...

解决Windows实例中无法查看数据盘问题

磁盘显示为 外部 或 脱机 将Windows的系统更换到更高版本的系统后,可能会出现看不到数据盘的情况。在运行窗口输入 diskmgmt.msc 命令,运行磁盘管理,磁盘可能会显示为 外部 或 脱机。请参考如下步骤修复磁盘。显示为 外部 的磁盘,在磁盘...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

管理集群

主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...

Link Visual SDK更新记录

ilop 优化高倍数下点播获取当前进度精度 修复反复快速start/stop可能产生的播放无法退出的问题 优化iOS APP未配置background audio情况下进入后台后使用对讲直播伴随模式会出现恢复时音频播放不出声的问题 修复复用点播播放器从云存切换到...

直播推流

具体操作,请参见 自助问题排查 为避免实际推流过程中因系统问题造成极小概率推流失败而影响直播业务的情况,建议您在使用第三方推流工具时,提前做好推流重试、错误告警等高可用策略。也可通过配置推流回调来监听推流状态,推流成功后再...

虚拟机场景

JvmCodeCache满 制造JVM CodeCache区域满的故障,CodeCache区域满直接导致JIT编译关闭,从而引起业务系统性能下降。一般用于验证业务系统在高并发且系统性能下降的情况下,是否能够通过限流、快速扩容等手段保证业务连续性。参数说明如下...

移植问题

本文介绍编译3.x和2.3.0版本的C Link SDK时,可能遇到的问题和解决方法。背景信息 如果您尚未接入物联网平台,推荐使用最新版本的SDK。更多信息,请参见 概述。在Linux系统编译SDK后,运行Demo时,为何出现如core dump等错误?SDK提供的HAL...

签署代付协议

发起签署时,为什么会出现“身份证号码和社会统一识别代码必须为18位”的提示?A:出现如图提示时,表明您这边前期在认证阿里云账号时,使用其他证件认证,导致系统未能识别您的实名认证信息以及社会统一识别代码等,需要您手动发起 工单...

自动或手动主备切换

系统会在Serverless实例出现故障无法访问时,自动切换主备。注意事项 主备实例切换过程中会出现约30~120秒的服务不可用,请确保您的应用程序具有自动重连机制。如果实例下挂载有只读实例,那么主备实例切换后,只读实例的数据会有几分钟的...

出现OOM Killer的原因及解决方案

如果内存回收机制不能处理系统内存不足的情况,则系统会触发OOM Killer(Out of Memory Killer)强制释放进程占用的内存,达到给系统解压的目的。本文介绍Alibaba Cloud Linux操作系统出现OOM Killer的可能原因及解决方案。问题现象 ...

SDK集成

Android端,在混淆规则文件中配置如下规则:说明 如果APP已开启混淆,则必须配置混淆规则,否则使用推流SDK会出现崩溃问题。最新混淆配置,请参见DEMO源码。keep class org.webrtc.*{*;}-keep class com.alivc.*{*;}-keep class ...

I-V曲线诊断

数据服务中提供光伏智能运维的IV曲线诊断算法,结合环境光强度、环境温度等影响因素,对组串式光伏发电阵列的电流-电压曲线(I-V曲线)进行分析,检测系统可能出现故障,进而提高设备的运行效率,保障电站高效运行。本文介绍光伏智能运维...

视频直播出现卡顿现象

排查 此问题涉及的原因较多,请参考以下各环节的问题可能性,并根据现场实际情况进行处理:推流端 上行带宽不足或网络抖动,导致的数据发送速率下降,无法达到流畅播放的帧率要求。解决方案:建议您使用网速测试工具 Speedtest 测试您当前...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
商标服务 云安全中心 负载均衡 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用