背景信息 阿里云技术支持人员可以通过在转储文件中找到对应的信息,从而分析操作系统宕机的原因,并同步给用户。说明 您也可以通过Windows平台的 WinDbg 工具和Linux平台的 crash 工具来检查操作系统内核的转储文件。Linux实例 远程连接ECS...
定位宕机原因 您可以通过以下方式,定位ECS实例发生宕机的具体原因。方式一:(推荐)通过自助诊断工具定位 登录 ECS管理控制台,左侧导航栏单击 自助问题排查。单击 实例问题排查 页签。选择 实例无法连接或启动异常>实例出现宕机,然后...
本文主要介绍Windows操作系统云虚拟主机耗资源(客户程序故障)问题的原因分析及处理意见。调用Access程序问题(最常见)原因:Access数据库大小超过30M,频繁调用时耗用系统资源。解决方法:将数据库大小压缩到30M以内,或者升级到SQL ...
本文介绍SAG-1000设备发生设备和交换机之间链路故障的原因和处理方法。问题现象 设备和交换机接口之间ping不通。设备的Web端口配置页,端口前的状态灯为红色。动态路由OSPF接入时,Web端口配置页,端口前的状态灯为红色。设备的Web状态查询...
本文介绍微服务引擎MSE在使用过程中常见问题的故障分析和排查流程。微服务注册配置中心问题排查 在浏览器中输入 XXX:8848/nacos,访问MSE的Nacos注册中心时返回404错误。具体操作,请参见 通过“XXX:8848/nacos”访问MSE的Nacos注册中心时...
0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...
存储设备:可以 确保在两台存储服务器同时宕机的情况下,数据的安全可靠。计算设备:支持宕机迁移和热迁移能力,在有充足冗余资源的情况下,可以确保业务连续性。本文主要介绍如何选择合适的计算SKU以满足业务需求,同时配置一定的冗余资源...
当节点上某一应用异常和故障,如内存泄露、频繁CoreDump等等导致节点整体负载升高,单容器触发Host Kernel Bug导致系统宕机,单应用的故障延展到了整个节点,甚至进一步导致整个集群的不响应。安全沙箱(runV)容器通过独立的GuestOS ...
请尝试通过命令 kubectl get apiservice,检查集群中的APIService的可用状态,并通过 kubectl describe apiservice 命令,查看状态异常的APIService并分析原因。集群Pod网段余量紧张 检查Flannel集群剩余可用PodCIDR网段是否少于5个。每个...
RedeployDedicatedHost 执行专有宿主机的故障迁移 调用RedeployDedicatedHost执行专有宿主机的故障迁移。ReleaseDedicatedHost 释放专有宿主机 调用ReleaseDedicatedHost释放一台按量付费专有宿主机。CreateDedicatedHostCluster 创建一个...
本文介绍光模块发生故障的原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...
故障自动容错原理:单机宕机和集群宕机测试结果如下。以下是单机宕机吞吐对比图和单机宕机平均响应对比图。以下是集群宕机吞吐对比图和集群宕机平均响应对比图。主备容灾原理介绍 当云数据库HBase实例因不可预料的原因(例如设备故障、机房...
调用RedeployDedicatedHost执行专有宿主机的故障迁移。接口说明 DDH 状态为报警状态(UnderAssessment),即故障潜伏期时,建议您调用该接口执行 DDH 的故障迁移,避免 DDH 产生永久性故障。您可以调用 API DescribeDedicatedHosts 查询...
调用RedeployDedicatedHost执行专有宿主机的故障迁移。接口说明 DDH 状态为报警状态(UnderAssessment),即故障潜伏期时,建议您调用该接口执行 DDH 的故障迁移,避免 DDH 产生永久性故障。您可以调用 API DescribeDedicatedHosts 查询...
当您的 ECS 实例所宿的物理机由于底层性能出现异常,或者其他原因导致物理机宕机时,宕机迁移功能通过技术检测确认机器无法恢复之后,会立刻发送短信通知 ECS 实例拥有者。迁移完成后,阿里云会再次发送迁移完成的短信,且 ECS 实例的...
常见的造成网站耗资源(客户程序故障)现象的原因如下所示:网站程序编写不合理,例如ASP程序变量没有清空。网站数据库调用频繁,例如当ACCESS数据库的容量比较大时(超过100 MB以上),性能可能会出现问题。网站访问量过大或者流量过大...
由于受网络和运行环境的影响,应用程序可能会遇到暂时性的故障,例如瞬时的网络抖动、服务暂时不可用、服务繁忙导致超时等。通过设计自动重试机制可以大幅避免此类故障,保障操作的成功执行。引发暂时性故障的原因 原因 说明 故障触发了高...
由于受网络和运行环境的影响,应用程序可能会遇到暂时性的故障,例如瞬时的网络抖动、服务暂时不可用、服务繁忙导致超时等。通过设计自动重试机制可以大幅避免此类故障,保障操作的成功执行。引发暂时性故障的原因 原因 说明 故障触发了高...
实例操作系统异常 实例系统出现了内核错误(kernel panic)、OOM(Out of Memory)异常或内部宕机等故障。检查该实例的操作系统(Guest OS)内部是否存在内核panic、OOM异常或内部宕机等故障。这些故障可能是由于实例配置不当或用户空间的...
解决方案 针对上述原因,您需要具体分析网站的访问情况,例如,了解网站访问量的变化趋势或分析网站运行中遇到的具体故障原因。本方案以建在Windows操作系统主机上的网站为例,主要介绍使用WebLog Expert Lite工具分析网站日志的方法。下载...
热Key的请求压力数量超出 Tair 的承受能力易造成缓存击穿,即大量请求将被直接指向后端的存储层,导致存储访问量激增甚至宕机,从而影响其他业务。大Key和热Key产生的原因 未正确使用 Tair 命令、业务规划不足、无效数据的堆积、访问量突增...
热Key的请求压力数量超出Redis的承受能力易造成缓存击穿,即大量请求将被直接指向后端的存储层,导致存储访问量激增甚至宕机,从而影响其他业务。大Key和热Key产生的原因 未正确使用Redis、业务规划不足、无效数据的堆积、访问量突增等都会...
为了降低物理故障对业务的影响,阿里云为您提供专有宿主机DDH宕机自动迁移的功能。本章节介绍在创建DDH后如何开启或者关闭宕机自动迁移。背景信息 宕机自动迁移开启后,当DDH因故障停机时,会自动迁移至健康的DDH。若您未开启宕机自动迁移...
检查CPU负载是否过高 尝试重启实例 步骤一:使用管理终端登录实例 无论何种原因导致无法远程连接实例,请先尝试用阿里云提供的远程连接功能进行连接,确认实例还有响应,没有完全宕机,然后再按原因分类进行故障排查。登录 云服务器管理...
请尝试通过命令 kubectl get apiservice,检查集群中的APIService的可用状态,并通过 kubectl describe apiservice 命令,查看状态异常的APIService并分析原因。集群Pod网段余量紧张 检查Flannel集群剩余可用PodCIDR网段是否少于5个。每个...
P1 故障等级 relatedServiceId Long Body 否 123 关联服务 progressSummary String Body 否 进展摘要xxxx 进展摘要 preliminaryReason String Body 否 原因是服务宕机 初步原因 mainHandlerId Long Body 否 678 主要处理人 feedback String...
而红军则需要按照预先定义的故障响应和应急流程进行处置。在演练结束后,建议针对故障中的发现、响应、恢复三个阶段的时长和操作内容进行复盘,并梳理改进点进行优化,提升业务系统的稳定性。突袭演练 突袭演练是一种手段以及目标对红军不...
性能监控产品通过轻量级的集成接入即可拥有实时、可靠、全面的应用崩溃、ANR、自定义异常等捕获能力,及卡顿、启动分析等性能能力,支持多场景、多通道智能告警监控,帮助开发者高效还原异常、卡顿用户的访问路径和业务现场,缩短故障排查...
如果Utility节点宕机或者Utility节点上的MariaDB Master出现故障,仅需要简单的操作就可以将元数据库切换到cdp-master-1节点上的备库,具体操作如下:在cdp-master-1上运行命令:mysql 进入mysql终端 停止MariaDB Slave的IO线程:stop ...
主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...
主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...
主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...
高可靠:在宕机、网络故障等情况下,严格保证数据一致性。节约成本:节省运维成本,避免了分布式场景下产生的数据异常。节省开发成本,像使用单机事务一样使用分布式事务。推荐搭配 ECS 和 MQ 使用。通用分布式事务管理 提供通用的分布...
场景二:企业内部运维 场景描述 企业面对内部的运维问题,如疑似AK泄露、异常的停机宕机、计划外的资源增删、违法员工操作盘查、故障排查、资源生命周期追溯、异地登录、异常操作、高危操作等,需要依赖审计日志进行排查和分析。...
高可用管理平台 HAS 定位于 IT 技术...故障演练平台支持触发 CPU 利用率升高、内存利用率升高、内存占用、网络丢包、容器宕机、物理机宕机等常见故障,并针对故障制定出详细的演练和恢复计划,保证用户能够有计划地测量和观测应用高可用能力。
主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后自动...
主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...
主机故障处理策略 主机故障时,系统的处理策略:自动替换主机:系统会自动替换故障主机。说明 如果故障主机是云盘主机,云盘会自动迁移计算资源以自动替换主机。如果故障主机是非云盘主机,则系统会先将故障主机上的实例迁移走,然后再替换...
注意事项 针对使用ACR企业版实例容器镜像创建的Custom Container函数,为该函数配置访问VPC的能力时,专有网络和交换机的选择必须遵循以下原则。如果ACR企业版实例的 访问控制 页面的 访问 IP 存在 默认解析 标识,则服务的专有网络和交换...
配置限制访问CDN资源的用户时,如果遇到疑问请参考以下常见问题及处理建议。...远程鉴权服务器发生故障或宕机时,CDN与鉴权服务器之间的数据交互超时后,按照设置的 鉴权超时之后的动作 参数,选择是否放行鉴权超时的用户请求。