节点异常问题排查

journalctl-u chronyd 节点PLEG异常-PLEG is not healthy 问题原因 Pod生命周期事件生成器PLEG(Pod Lifecycle Event Generator)会记录Pod生命周期中的各种事件,如容器的启动、终止等。PLEG is not healthy 异常通常是由于节点上的运行时...

节点异常问题排查

journalctl-u chronyd 节点PLEG异常-PLEG is not healthy 问题原因 Pod生命周期事件生成器PLEG(Pod Lifecycle Event Generator)会记录Pod生命周期中的各种事件,如容器的启动、终止等。PLEG is not healthy 异常通常是由于节点上的运行时...

更新故障复盘改进详情

problemReason":"故障原因A","recentActivity":"2","injectionMode":"1","recoveryMode":"2","discoverSource":1,"userReport":10,"monitorSourceName":"Zabbix","relationChanges":"关联变更","dutyUserId":1231,"replayDutyUserId":1213...

使用ECI运行Argo工作流

设置Pod故障处理策略,设置Pod创建失败后是否尝试重新创建。具体操作,请参见 设置Pod故障处理策略。配置示例如下:编辑eci-profile配置多可用区。kubectl edit-n kube-system cm eci-profile 在 data 中配置 vSwitchIds 的值为多个交换机...

ECI Pod Annotation

设置Pod故障处理策略 k8s.aliyun.com/eci-custom-hosts "[{\"host\":\"example.com\",\"ip\":\"100.100.XX.XX\"},{\"host\":\"aliyundoc.com\",\"ip\":\"100.100.XX.XX\"}]"自定义设置Pod的hosts(即/etc/hosts)。自定义设置ECI Pod的...

ECI Pod Annotation

设置Pod故障处理策略 k8s.aliyun.com/eci-custom-hosts "[{\"host\":\"example.com\",\"ip\":\"100.100.XX.XX\"},{\"host\":\"aliyundoc.com\",\"ip\":\"100.100.XX.XX\"}]"自定义设置Pod的hosts(即/etc/hosts)。自定义设置ECI Pod的...

故障止损恢复

故障初因定位 集成企业内部可利用的所有稳定性相关数据(变更事件,...通用垂直专项快恢能力:通过集成包括DB侧慢SQL限流、变更极速回滚、多活容灾切流快恢等通用的快恢能力,结合监控、日志等数据自动定位的故障原因进行对应的快恢方式推荐。

无法连接Windows实例

故障原因 可能是网卡驱动未开启或网卡配置有问题。解决方法 使用管理终端 登录实例,检查网卡驱动,如果存在异常,则重新安装。步骤三:检查重置实例密码后是否未重启实例 确认是否存在故障现象,如果存在,则参考本步骤解决问题,如果不...

应用故障自动诊断

在EDAS中进入应用总览页面时,会按照您自定义的时间段对该应用的运行情况做一个自动诊断。...数据支持:这一部分包含了得到推测结论的数据支持,不同故障原因的诊断报告中包含的分析数据将不一样。图 1.故障诊断报告示例图-RT诊断

什么是故障

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

如何管理故障

可对故障根因进行原因检查并结构化录入,检查点包括:故障原因、最近活动、注入方式、恢复方式等;关联故障期间的故障变更,新增故障改进措施等操作。故障状态 处理中:处理中仍未恢复的故障;已恢复:故障对处理中的故障做 恢复 操作后是...

故障管理

包括根因检查点(如故障原因、最近活动、注入方式、恢复方式等)、故障变更检查、监控检查,并需要对每一个故障明确责任人及团队;故障改进:支持对故障制定明确的改进及验收措施、责任人及完成时间,确保每个深度复盘后的故障都能对业务...

设计方案

故障恢复 定位故障原因后,按照应急预案快速恢复业务,并在事后进行复盘总结。预案执行:在故障响应的过程中,需要按照事先制定的应急预案进行执行。应急预案包括了应急响应流程、各个岗位的职责、处理流程等。预案执行能够保证故障恢复和...

故障复盘

复盘文档一般包含以下内容:故障简述:故障概述、影响面、处理人等 故障背景:故障发生时的业务链路 故障时间线:着重强调故障引入、故障发生、故障发现、业务响应、恢复执行、故障恢复几个时间点 故障原因分析:建议先一句话总结,再进行...

托管节点池节点自动恢复

当发现节点故障时,ACK会根据故障原因触发对应恢复任务,并记录相应的事件。当恢复任务完成后,故障状态解除,节点恢复正常状态。当恢复任务完成后,故障状态依然存在,节点会被置为恢复失败状态。说明 如果集群中存在多个节点池,节点池...

EMR Kafka磁盘故障运维

当出现磁盘故障时,需要根据故障原因、故障影响程度、业务需求(是否接受数据丢失、是否允许服务较长时间不可用)、集群状态等综合考虑恢复采取的策略。如果业务优先保证服务可用,但允许丢失部分数据,则应考虑在可能会丢失数据的情况下,...

弹性伸缩FAQ

pod-autoscaler unable to get metrics for resource cpu:unable to fetch metrics from resource metrics API:the server is currently unable to handle the request(get pods.metrics.k8s.io)原因如下:原因一:resource metrics数据源...

弹性伸缩FAQ

pod-autoscaler unable to get metrics for resource cpu:unable to fetch metrics from resource metrics API:the server is currently unable to handle the request(get pods.metrics.k8s.io)原因如下:原因一:resource metrics数据源...

ACK发布Kubernetes 1.26版本说明

当节点故障时,故障节点上的Pod会一直处于Terminating(停止)状态,也无法删除VolumeAttachments。如果是StatefulSet类型的Pod,因为Pod不允许同名,所以也不会在新节点上启动Pod。相比Kubelet检测节点关闭事件对 节点体面关闭,节点非...

Nginx Ingress异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 排查思路 排查思路 常见排查方法 通过日志服务SLS的Controller Pod查看访问日志 检查Controller Pod中错误日志 在Controller Pod中手动访问Ingress和后端Pod 抓包 常见问题及解决方案 访问连接相关 ...

Nginx Ingress异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 排查思路 排查思路 常见排查方法 通过日志服务SLS的Controller Pod查看访问日志 检查Controller Pod中错误日志 在Controller Pod中手动访问Ingress和后端Pod 抓包 常见问题及解决方案 访问连接相关 ...

设置Pod故障处理策略

如果您希望尽快得到创建结果以便及时处理故障,可以修改Pod故障处理策略。配置说明 在虚拟节点上创建ECI Pod时,可能会因为库存不足等原因导致Pod创建失败,默认情况下,系统会自动进行重调度,尝试重新创建Pod。您可以通过添加 k8s.aliyun...

Pod演练场景

Kubernetes集群中Pod资源故障场景,包含删除PodPod网络异常场景。每个Pod场景下都包含通用的Pod筛选参数,用于查找目标Pod。通用参数 参数名称 参数说明 Pod资源名称 Pod资源名称,多个资源名称之间使用逗号分隔,表示选择多个PodPod...

演练场景说明

Pod演练场景 Kubernetes集群中Pod资源故障场景,包含删除PodPod网络异常场景。每个Pod场景下都包含通用的Pod筛选参数,用于查找目标Pod。Container演练场景 Kubernetes集群中Pod资源下的容器故障场景,目前包含删除容器以及容器内故障...

Alibaba Cloud Linux 2系统的ECS实例无法正常删除Pod...

本文为您介绍Alibaba Cloud Linux 2系统的ECS实例无法正常删除Pod原因及解决方案。问题描述 在符合如下条件的Alibaba Cloud Linux 2系统的ECS实例中,出现无法正常删除Pod的情况,进程处于D状态(不可中断的睡眠状态)。镜像:Alibaba ...

实现ECI Pod可用区打散或亲和调度

如果ECI Pod通过 k8s.aliyun.com/eci-fail-strategy: "fail-fast" 的Annotation设置了Pod故障处理策略为 fail-fast,该功能将被自动禁用。配置示例 下文将在1.22版本的 ACK Serverless集群Pro版 本集群中演示ECI Pod可用区打散和亲和调度...

配置ECI Pod使用固定IP地址

如果Pod因为故障释放了,IP地址会随之释放,新创建的Pod会被分配新的IP地址。在某些业务场景下(例如一些IP地址直接暴露的服务),可能需要某一Pod使用固定的IP地址,否则会影响实际业务。基于上述场景,ECI支持了固定IP地址的功能。在创建...

故障复盘改进详情

0c4840fd3812 幂等校验token 返回数据 名称 类型 示例值 描述 requestId String 4361a0e1-6747-4834-96ce-0c4840fd3811 Id of the request data Object data problemId String 231231 故障ID problemReason String 故障的原因 故障原因 ...

光模块故障

本文介绍光模块发生故障原因和处理方法。问题现象 光模块连接后,接口指示灯没有变为绿色。可能原因 光模块不兼容或损坏。智能接入网关设备支持的光模块型号请参见 光模块型号。说明 目前仅SAG-1000设备支持光模块插入。解决方案 通用多...

DNS最佳实践

在集群节点异常情况下,部分旧版本CoreDNS默认采用的容忍策略,可能会导致CoreDNS Pod部署在异常节点上,且CoreDNS Pod无法被自动驱逐,继而导致域名解析异常。不同版本的Kubernetes集群,推荐的CoreDNS最低版本有所区别。如下表:...

DNS最佳实践

在集群节点异常情况下,部分旧版本CoreDNS默认采用的容忍策略,可能会导致CoreDNS Pod部署在异常节点上,且CoreDNS Pod无法被自动驱逐,继而导致域名解析异常。不同版本的Kubernetes集群,推荐的CoreDNS最低版本有所区别。如下表:...

故障协同处理(基于钉钉)

原因检查:展示故障发生原因故障恢复方式等故障详情。分析详情:展示监控来源和故障相关人等故障详情。改进措施:逐条填写改进措施,至少新增一条改进措施。(4)故障动态 H5界面:故障动态和PC端故障动态保持一致,PC端和移动端对于故障...

Pod异常问题排查

本文目录 类别 内容 诊断流程 诊断流程 常见排查方法 检查Pod的状态 检查Pod的详情 检查Pod的配置 检查Pod的事件 检查Pod的日志 检查Pod的监控 使用终端进入容器 Pod故障诊断 常见问题及解决方案 常见的Pod异常状态及处理方式 Pod OOM异常...

DNS解析异常问题排查

集群外部域名解析异常 新增Headless类型域名无法解析 StatefulSets Pod域名无法解析 安全组、交换机ACL配置错误 容器网络连通性异常 CoreDNS Pod负载高 CoreDNS Pod负载不均 CoreDNS Pod运行状态异常 客户端负载原因导致解析失败 ...

DNS解析异常问题排查

集群外部域名解析异常 新增Headless类型域名无法解析 StatefulSets Pod域名无法解析 安全组、交换机ACL配置错误 容器网络连通性异常 CoreDNS Pod负载高 CoreDNS Pod负载不均 CoreDNS Pod运行状态异常 客户端负载原因导致解析失败 ...

扩容Terway场景下的Pod虚拟交换机

问题原因Pod IP来源于VPC地址,并且通过ENI分配给容器使用。只有在新建ENI时,才可以配置虚拟交换机。如果ENI已经创建,则Pod IP将继续从该ENI对应的虚拟交换机中分配。通常以下两个使用场景会遇到该问题:纳管一个节点到集群内,但这个...

应用监控没有数据怎么处理?

可能原因 业务Pod配置不全。解决方案 检查业务Pod中是否有目录/home/admin/.opt/ArmsAgent。例如,可以登录Pod并执行以下命令。cd/home/admin/.opt/ArmsAgent 如果没有此目录,请加入钉群(钉群号:32874633),联系产品技术专家进行咨询。...

存储异常问题排查

NAME READY STATUS RESTARTS AGE csi-plugin-*4/4 Running 0 23d csi-provisioner-*7/7 Running 0 14d 说明 如果出现非Running状态的Pod,使用 kubectl describe pods<pod-name>-n kube-system 查看具体Container退出的原因Pod的Event。...

存储异常问题排查

NAME READY STATUS RESTARTS AGE csi-plugin-*4/4 Running 0 23d csi-provisioner-*7/7 Running 0 14d 说明 如果出现非Running状态的Pod,使用 kubectl describe pods<pod-name>-n kube-system 查看具体Container退出的原因Pod的Event。...

ossfs异常问题排查

kubectl-n<POD_NAMESPACE>describe pod<POD_NAME>查询结果的Events中是否存在原因为FailedMount的事件。需替换的变量如下:<PV_NAME>:OSS存储卷名称。挂载的OSS Bucket名称。挂载的OSS Bucket的路径。POD_UID>:业务...
共有152条 < 1 2 3 4 ... 152 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据库自治服务 云数据库 OceanBase 版 负载均衡 应用高可用服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用