如果业务需要高可用与数据不丢失,则您需要通过合理的集群配置、使用Kafka方式提高系统容错能力来避免出现一块盘故障就导致数据会丢失的情况出现。如果发现因为故障盘IO性能下降导致集群整体性能下降,影响业务,则应快速隔离故障盘来进行...
当宿主机存在故障风险和出现突发故障时,阿里云会通过系统事件方式通知宿主机上的用户,您可以响应该系统事件。在您响应该系统事件时,ECS实例的默认行为是自动重启。如果您希望在这种情况下不自动重启ECS实例,可以通过修改维护属性来调整...
如果商品详情页对下游依赖是强依赖,例如当下游依赖 库存、优惠、物流 出现故障的时候,将导致业务流程无法推进,会出现类似如下的说明,严重影响用户体验。如果商品详情页对下游依赖是弱依赖,例如当下游依赖 评价、店铺 等系统出现故障的...
系统内核问题:当系统内核存在漏洞或者其他问题时,可能会出现hung task故障。系统资源紧张:ECS实例中应用或进程占用系统资源使用率(如CPU、内存等)过高时,可能会出现hung task故障。解决方案 出现hung task的原因比较复杂,您可以参考...
Linux操作系统内存不足时,会先触发内存回收机制释放内存,并将这部分被释放的内存分配给其他进程。如果内存回收机制不能处理系统内存不足的情况,则系统会触发OOM Killer(Out of Memory Killer)强制释放进程占用的内存,达到给系统解压...
通信方式和传输模型的具体说明,请参见下文 通信方式介绍 和 消息传输模型介绍。云消息队列 RocketMQ 版 产品具备异步通信的优势,系统拓扑简单、上下游耦合较弱,主要应用于异步解耦,流量削峰填谷等场景。对于同步链路,需要实时返回调用...
当主实例发生故障或不可用时(例如操作系统错误、硬件故障等),系统会自动触发主备切换,主实例和备实例将进行互换,切换后实例地址保持不变,应用程序会自动连接到新的主实例(原备实例),从而保障业务的连续性和高可用性。此外,您还...
如果JVM堆空间大小设置过大,可能会导致Linux系统的OOM Killer被激活,进而结束(kill)Java应用进程,在容器环境下可能会表现为频繁异常重启。本文介绍在容器环境下JVM堆参数的配置建议,以及OOM的相关常见问题。通过-XX:MaxRAMPercentage...
当系统发生故障时,PolarDB 集群会自动进行主备切换。您也可以手动进行主备切换,指定一个只读节点为新的主节点。注意事项 不论是自动切换还是手动切换,当只读节点未开启热备时,主备切换过程中可能会出现20~30秒左右的闪断,因此切换前请...
一般通过单节点或单CPU测试可以得到几个较好的NB值,但当系统规模增加、问题规模变大,有些NB取值所得性能会下降。因此建议在小规模测试时选择3个性能不错的NB值,再通过大规模测试检验这些选择。第10~12行内容。1#of process grids(P x Q)...
但在切换过程中,会出现以下情况:执行切换的数据节点将出现秒级的连接闪断,可能还会出现30秒内的只读状态。在实例处于 切换中 状态时,将无法执行实例级别的操作(例如变更配置、迁移可用区等)。当实例完成主备切换后,实例状态会显示为...
但在切换过程中,会出现以下情况:执行切换的数据节点将出现秒级的连接闪断,可能还会出现30秒内的只读状态。在实例处于 切换中 状态时,将无法执行实例级别的操作(例如变更配置、迁移可用区等)。当实例完成主备切换后,实例状态会显示为...
全局流量管理(GTM)支持用户就近接入、高并发负载均衡、健康检查与故障切换,可以帮助企业在短时间内构建同城多活与异地灾备的容灾架构。同时GTM支持管理阿里云和非阿里云IP地址,能够方便企业客户快速构建混合云应用的灾备。GTM属于DNS...
容灾演练提供三种断网方式:可用区断网、安全组断网和AHAS探针方式断网。这三种断网方式爆炸半径依次降低,对断网范围的控制越来越精细。可用区断网 当整个机房的外部网络出现中断后,外部请求无法进入故障机房,机房内业务同样无法访问...
同时,您可以通过控制台的切流操作,将出现故障的可用区隔离,这时系统会自动在剩余的可用区中补充计算资源,满足业务对资源的需求。本文介绍如何部署和使用(切流和恢复)跨可用区实例。应用场景 跨可用区部署支持单可用区、跨2个可用区、...
本文介绍Windows系统的ECS实例ping外网地址提示“一般故障”的错误原因和解决方案。问题现象 Windows系统的ECS实例ping外网地址时提示“一般故障”错误。问题原因 出现该问题可能有以下原因:可能原因 排查方案 ECS实例中安装了第三方杀毒...
网络存在问题可能是由于Windows系统的ECS实例中系统防火墙、IP安全策略或者其他网络安全管理软件阻断了服务器与ECS激活服务器之间的通信导致的。说明 ECS激活服务器使用kms.cloud.aliyuncs.com域名、TCP协议以及1688端口。解决方案 在 C:\...
当Node Problem Detector(简称NPD)组件检测到节点上的故障并生成节点的事件(Event)或者Condition上报给集群时,ACK的自愈系统(ACK Node Repairer)会监听每个节点上的新故障事件,并根据配置对故障节点进行相应的修复操作。...
为什么会出现内存泄漏?setSDKAuthSDKInfo的密钥如何获取?什么情况下会返回600005页面非法修改?当使用移动卡请求一键登录不成功,可能出现的报错日志及解决方法有哪些?若出现权限相关问题,该怎样做?检查App的权限是否可以正常申请。...
本文介绍常见的Linux系统内核网络参数及常见问题的解决方案。注意事项 在修改内核参数前,您需要注意以下几点:从实际需求出发,尽量有相关数据的支撑,不建议您随意调整内核参数。了解参数的具体作用,需注意不同类型或版本的环境中,内核...
网络资源是指用于节点之间通信和数据传输的硬件和软件资源,除了包括广域网、局域网、交换机、路由器,还包括常用到的专有网络、虚拟交换机、负载均衡、弹性公网、VPN、DNS、CDN等资源。在分布式系统中,网络资源的主要作用是支持节点之间...
提高故障排查效率:当系统或应用出现故障时,传统的性能监控方案通常需要IT运维人员手动分析监控数据来确定故障原因,这样会浪费大量的时间和精力。而一体化性能监控能够对多种关联的监控数据进行自动分析和处理,帮助IT运维人员快速定位...
基于稳定性支柱设计原则,整体稳定性设计方案可参考如下:架构设计原则 软件系统从所有的功能都在一个应用程序内运行的单体应用架构,到不同的功能模块分别部署在不同的服务器上的传统分布式应用架构,再到服务细分通过轻量级的通信机制...
故障演练就是这个背景下诞生的,沉淀通用的故障场景,以可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现...
针对实例启动过程中因操作系统内配置异常、异常关机等问题导致操作系统无法正常启动的情况,您可以通过VNC登录实例发现的启动异常或者实例健康诊断工具返回的异常字段,在本文查看此类问题的解决方案。Windows 1662001135:Windows系统因...
重要 完成修改 config 文件后,需要重启ECS实例使配置生效,但直接重启实例将会出现系统无法启动的错误。因此,在重启之前需要在根目录下新建 autorelabel 文件,以避免出现该问题。执行以下命令,在根目录下新建隐藏文件 autorelabel。...
相比于Linux系统,Windows系统由于图形化界面操作相对容易而受到许多用户的青睐,在购买ECS实例时,需要至少1 GiB内存才能选择Windows系统,1 GiB内存对于系统运行来说是足够了,但是在配置环境、安装更多软件后就会出现内存不足的情况。...
在使用ECS实例过程中,可能会遇到一些与镜像有关的问题或咨询,比如实例启动慢、系统负载高、如何编译内核等。本文介绍在使用ECS实例过程中遇到的镜像相关问题及解决方案。Windows镜像问题 如何手动更新Windows实例的virtio驱动?Windows ...
网络存在问题可能是由于Windows系统的ECS实例中系统防火墙、IP安全策略,或其它网络安全管理软件阻断了服务器与ECS激活服务器之间的通信导致的。说明:ECS激活服务器使用kms.cloud.aliyuncs.com域名、TCP协议以及1688端口。解决方案 查看...
Alibaba Cloud Linux 3(内核版本 5.10.60-9.al8.x86_64 开始)增加了内核统一异常框架UKFEF(Unified Kernel Fault Event Framework),用于统计可能导致风险的系统异常事件,并以统一格式输出事件报告。本文主要介绍UKFEF所统计的事件、...
当您访问文件系统中的文件时,文件系统中的文件会受到某些限制影响,导致文件操作错误、挂载点无响应或访问无响应等。您可以在本文中查找一些常见文件操作错误、文件属主、数据不同步或访问无响应的解决方案。交叉挂载兼容性问题 Linux挂载...
Redis是一个开源高性能的Key-Value存储系统,虽然Redis本身具备了非常高的可用性,但是在实际应用中也会随着系统业务的复杂性以及不合理的使用,而导致很多的问题。本文将讲述如何通过混沌工程来暴露可能存在的使用风险,提升缓存问题的...
问题描述 网页加载较慢是经常出现且前端非常关注的问题之一。定位、排查解决这类问题的难点如下:复现困难 假设您的一位用户是A,当A访问某网页时,该页面会加载在A本地的浏览器上。由于页面的加载耗时受地域、网络情况、浏览器或者运营商...
16.1 为了提供支持关键过程的计算机化系统,应作出规定,确保在系统出现故障(例如手动或替代系统)时继续为这些流程提供支持。采用替代安排所需的时间应视风险而定,并适合特定系统及其所支持的业务流程。应充分记录和测试这些安排。17.1 ...
本文介绍常见的Linux系统内核网络参数及常见问题的解决方案。注意事项 在修改内核参数前,您需要注意以下几点:从实际需求出发,尽量有相关数据的支撑,不建议您随意调整内核参数。了解参数的具体作用,需注意不同类型或版本的环境中,内核...
数据恢复方法 在Linux实例里,您重启系统后,可能会出现数据盘分区丢失或者数据丢失的问题。这可能是因为您未在/etc/fstab 文件里设置自动挂载。此时,您可以先手动挂载数据盘分区。如果手动挂载时报分区表丢失,您可以尝试如下三种办法...
为什么会出现网站耗资源(客户程序故障)?常见的造成网站耗资源(客户程序故障)现象的原因如下所示:网站程序编写不合理,例如ASP程序变量没有清空。网站数据库调用频繁,例如当ACCESS数据库的容量比较大时(超过100 MB以上),性能可能...
更换操作系统的本质是...所以会出现更换操作系统时选不到目标镜像并且提示“该实例为非IO优化实例”,建议您选择其他可选的操作系统。说明 您可以通过 DescribeInstances 接口查询实例的IO属性,通过 DescribeImages 接口查询镜像的IO属性。
故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...
在某些特殊场景下(例如排查Linux实例启动故障、修复系统异常、维护硬盘分区或root用户被锁定,需要修改密码),您可以通过Linux系统的系统引导器(GRUB)进入单用户模式进行操作。在该模式下,只启动最基本的组件和服务,并且操作者拥有...