在Java类型应用中,如果出现故障Pod实例,可以借助Arthas诊断,排查Pod故障点。相关文档,请参见 Arthas诊断。如果应用无法正常启动,可以将启动命令修改为 sleep,再通过 kubectl exec 手动启动进程,观察输出并分析原因。相关文档,请...
故障管理概述 故障管理是源于ITIL的一个概念,在IT企业或者互联网企业进行故障管理的目的是当生产环境出现重大宕机时尽快恢复正常的服务运营,将组件失败对业务所造成的负面影响降到最低,从而确保满足事先与业务客户之间所约定的服务级别...
另外,通过日志的时间戳,不仅可以迅速查找和定位日志范围,还能够了解在请求发生时间点范围内,客户端应用、网络或者服务系统发生的其他事件,有利于问题的分析和调查。RequestID OSS服务会为接收的每个请求分配唯一的服务器请求ID,即...
这样做的目的是防止服务端出现问题后,仍收到客户端的服务调用,导致请求失败。为了验证该场景,蚂蚁团队在线下测试环境中,通过 iptables 命令 drop 掉 APP 返回给 MOSN 的响应数据,人为制造应用 APP 异常的场景。通过这种方式,蚂蚁团队...
如上所述,由于健康检查成功后,负载均衡服务器直接发送TCP RST包中断了连接,并没有做进一步的业务数据交互,导致上层业务(例如Java连接池等)认为相应的连接是异常的,所以会出现 Connection reset by peer 等错误信息。解决方案 更换...
常见网络问题概览 问题 诊断工具检测 客户端日志 问题分析及排查方法 控制台显示 打开备份库失败 通过诊断工具检测,出现如下问题:i/o timeout An existing connection was forcibly closed by the remote host No connection could be ...
业界衡量因数据带来的故障会用到两个指标:RPO(Recovery Point Objective)即数据恢复点目标,以时间为单位,即在灾难发生时,系统和数据必须恢复的时间点要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值...
本文主要介绍 云消息队列 RocketMQ 版 TCP协议的Java客户端使用过程中,经常会出现的消息堆积和消息延迟的问题。通过了解 云消息队列 RocketMQ 版 客户端的消费原理和消息堆积的主要原因,帮助您可以在业务部署前更好的规划资源和配置,或...
灾备方案 说明 单可用区高可用方案 主备节点部署在同一可用区中的不同机器上,当任一节点发生故障时,由高可用HA(High Availability)系统监控主备节点的健康状态并自动执行故障切换,避免单点故障引起的服务中断。同城容灾方案 主备节点...
节点池高可用配置 您可以基于节点的弹性伸缩、部署集、多AZ,结合K8s调度的拓扑分布约束,确保服务在不同的故障域(failure-domain)资源充足且有所隔离,从而当某一故障域出现问题时,服务仍然可以保持运行,减少单点故障的风险,提高系统...
如果检查后发现当前时间点应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择 更多>故障切换>更换恢复点。说明 切换恢复点操作与故障切换操作类似,仅需选择更早的恢复点...
节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障,会导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...
割接上线前的准备 应用的割接上线是整个应用上云迁移实施的最关键环节,这一环节出问题,可能会造成重大故障。针对割接上线的重要性,我们建议在实施应用割接前,制定详细的割接前检查清单,这个清单的严谨程度很大程度上决定了割接成功率...
如果检查后发现当前时间点应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择 更多>故障切换>切换恢复点,重新选择恢复点。说明 切换恢复点操作与故障切换操作类似,仅需...
如果检查后发现当前时间点应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择 更多>故障切换>切换恢复点,重新选择恢复点。说明 切换恢复点操作与故障切换操作类似,仅需...
如果检查后发现当前时间点应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个地域,请在确认故障切换前,选择 更多>故障切换>更换恢复点。说明 切换恢复点操作与故障切换操作类似,仅需选择更早的恢复点...
在使用 云原生内存数据库Tair 的过程中,如果未能及时发现并处理Big keys(下文称为“大Key”)与Hotkeys(下文称为“热Key”),可能会导致服务性能下降、用户体验变差,甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...
Addon 检查项名称 检查项说明 修复方案 Ingress就绪Pod百分比 Ingress Deployment已就绪的Pod百分比,此值小于100表明Ingress Pod可能出现问题导致启动或健康检查失败。请根据错误日志查找问题Pod并修复。关于Ingress异常问题排查,请参见 ...
Addon 检查项名称 检查项说明 修复方案 Ingress就绪Pod百分比 Ingress Deployment已就绪的Pod百分比,此值小于100表明Ingress Pod可能出现问题导致启动或健康检查失败。请根据错误日志查找问题Pod并修复。关于Ingress异常问题排查,请参见 ...
从指定时间点的位点开始消费:选择此项后会出现时间选择控件。请指定一个时间点,消费者将从这个时间点之后发送的消息开始消费,不管之前的消息是否又被消费过。在弹出的 提示 对话框,确认提示信息,然后单击 确定。消费位点重置常见问题 ...
当您访问文件系统中的文件时,...问题现象 当您混用NFS和SMB协议文件系统,导致第一次通过 net use 命令挂载NFS协议文件系统连接失败后,挂载正确的SMB协议文件系统也会出现问题。解决方案 检查确保挂载正确的文件系统后,暂时停止挂载,5分钟...
热key 预期外的访问量陡增,如突然出现的爆款商品、访问量暴涨的热点新闻、直播间某主播搞活动带来的大量刷屏点赞、游戏中某区域发生多个工会之间的战斗涉及大量玩家等。快速找出大Key和热Key Redis提供多种方案帮助您轻松找出大Key与热Key...
警告 创建单节点地址后,当此节点故障时,该地址可能会出现最多1小时不可用的情况,请勿用于生产环境。Q:一个集群内最多允许创建多少个单节点地址?A:如果您的集群内有3个节点,则只允许为其中1个只读节点创建单节点地址;若集群内有4个...
阿里云侧线路出现故障时您可以通过提交工单的方式联系阿里云售后支持人员解决故障问题。速率不符合预期怎么办?对于路由器接口的规格在1Gbps以下的情况,可以使用iperf等工具测试带宽。如果无法超过10Mbps,则有可能是专线某一侧的端口协商...
节点文件系统只读状态 节点出现文件系统只读,通常是因为磁盘故障,会导致节点无法写入数据,可能造成业务异常。请尝试在节点上使用fsck命令修复文件系统,然后重启节点。节点硬件时间 检查节点硬件时钟与系统时间是否一致,时间相差超过2...
警告 创建单节点地址后,当此节点故障时,该地址可能会出现最多1小时不可用的情况,请勿用于生产环境。Q:一个集群内最多允许创建多少个单节点地址?A:如果您的集群内有3个节点,则只允许为其中1个只读节点创建单节点地址;若集群内有4个...
详细信息 查看AP指示灯 AP指示灯将会根据不同故障问题,进行不同频率的闪烁。闪烁情况请见下表:闪烁间隔 原因 不亮 没通电 50ms 没有IP地址 200ms 到网关没通 1000ms 到公网不通 2000ms DNS有问题 4000ms 其它原因导致连不上云端 常亮 ...
针对实例启动过程中因操作系统内配置异常、异常关机等问题导致操作系统无法正常启动的情况,您可以通过VNC登录实例发现的启动异常或者实例健康诊断工具返回的异常字段,在本文查看此类问题的解决方案。Windows 1662001135:Windows系统因...
常见问题 故障切换时间是多少?在健康检查间隔设置为15秒,TTL10秒,连续失败次数3次的配置下,GTM能在1分钟左右准确发现故障并切换,故障切换后理论上10秒左右可以全网生效,但实际情况取决于全国各地运营商的缓存设置时间。DNS未使用云...
随着畅捷通业务的增长接入的应用系统增多,畅捷通很快发现平台出现各种问题,各产品的稳定运行受到极大挑战。并发量大 几万个点并发发送数据,每天产生的各种日志与消息达到TB级。自建的ELK系统性能较差,优化性能需要耗费大量开发资源。...
警告 创建单节点地址后,当此节点故障时,该地址可能会出现最多1小时不可用的情况,请勿用于生产环境。Q:一个集群内最多允许创建多少个单节点地址?A:如果您的集群内有3个节点,则只允许为其中1个只读节点创建单节点地址;若集群内有4个...
汇总聚合调用链路:所有的调用信息会被聚合汇总,方便对各个应用的调用情况和响应情况进行分析。定位关键路径:快速发现整个系统调用拓扑中的关键应用路径。优化不合理调用:及时发现某些不合理的调用并进行处理,如频繁进行数据库操作等。...
如果此时备节点已经被切换成新主节点,就会出现主节点数据少于备节点,主备节点数据不一致的情况。全局 事务强一致性 组复制具备集群的节点间的数据全局强一致读和全局强一致写能力,并且可根据业务需要修改group_replication_consistency...
问题原因 对于某些内核版本,如果执行挂载操作的ECS实例名称与其他ECS实例名称相同,且该重名ECS实例已使用NFSv4.0挂载了同一个NFS挂载点,此时会产生冲突。解决方案 在报错的ECS实例上执行以下命令。echo 'install nfs/sbin/modprobe-...
本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常...
基于重保角度考虑,特定时间段全采样 运维过程中也经常会面临重大事件保障的场景,比如大促、新版本压测等,需要针对某一类标签的数据甚至全部应用开启全量数据采集和存储,以便出现问题或者故障时,可以快速定位,甚至影响审计和定责。...
交换机所在的子网故障或子网中的IP地址已用尽,您可以在配置VPC时提供两个或者多个交换机ID,如果一个可用区出现故障,您的函数可以在其他可用区运行,提高容错能力。安全组配置错误,请您按照以下要求配置安全组。需要设置VPC中的安全组的...
随着集群规模扩大和频繁自动伸缩弹性,仅凭人工手动方式很难快速定位及发现问题,也很难追溯历史,基本不可能发现在长时间线上统计才能发现的异常。本文介绍如何通过节点弹性大盘上展示的Pod、Node详情及变化图表,快速排查定位问题。前提...
SuSE Linux Enterprise Server 12.1由于系统本身的原因导致在VMware环境下存在重启后黑屏的问题,出现此类问题与ECS容灾服务无关。Alibaba Cloud Linux 2.1903 LTS 64位 目前支持Alibaba Cloud Linux 2.1903 LTS 64位如下的内核版本:4.19....
SuSE Linux Enterprise Server 12.1由于系统本身的原因导致在VMware环境下存在重启后黑屏的问题,出现此类问题与ECS容灾服务无关。Alibaba Cloud Linux 2.1903 LTS 64位 目前支持Alibaba Cloud Linux 2.1903 LTS 64位如下的内核版本:4.19....