Addon 检查项名称 检查项说明 修复方案 Ingress就绪Pod百分比 Ingress Deployment已就绪的Pod百分比,此值小于100表明Ingress Pod可能出现问题导致启动或健康检查失败。请根据错误日志查找问题Pod并修复。关于Ingress异常问题排查,请参见 ...
命名空间:{{$labels.namespace}}/Pod:{{$labels.pod_name}}/容器:{{$labels.container}} 内存使用率超过80%,当前值{{ printf \\\"%.2f\\\"$value }}%Labels string 否 Prometheus 告警规则的标签。[{"Value":"cms_polardb","Name":"_aliyun...
Addon 检查项名称 检查项说明 修复方案 Ingress就绪Pod百分比 Ingress Deployment已就绪的Pod百分比,此值小于100表明Ingress Pod可能出现问题导致启动或健康检查失败。请根据错误日志查找问题Pod并修复。关于Ingress异常问题排查,请参见 ...
Addon 检查项名称 检查项说明 修复方案 Ingress就绪Pod百分比 Ingress Deployment已就绪的Pod百分比,此值小于100表明Ingress Pod可能出现问题导致启动或健康检查失败。请根据错误日志查找问题Pod并修复。关于Ingress异常问题排查,请参见 ...
Pod发生OOM异常。Pod容器异常退出。Pod ConfigMap或Secret配置异常。Pod健康检查失败。Pod PVC配置异常。Pod镜像拉取异常。类别 支持的异常场景 Pod诊断 Pod未被调度器处理。Pod不满足调度约束无法被调度。Pod已调度但未被Kubelet处理。Pod...
异常事件类型 异常事件可分为以下类型:流转异常:数据在流转过程中出现的异常情况。例如:下载非常用Bucket内敏感文件、初次下载敏感数据等。行为异常:非正常的数据操作行为。例如:登录密码连续错误、短时间内大量删除数据等。自定义...
异常事件类型 异常事件可分为以下类型:流转异常:数据在流转过程中出现的异常情况。例如:异常地理位置下载敏感数据。行为异常:非正常的数据操作行为。例如:登录密码连续错误、登录使用终端异常等。自定义异常:根据您自定义的检测模型...
组件部署状态异常诊断 如果发现组件部署状态有问题,先进入【组件列表】查看组件异常信息:如果是Pod部署状态异常,请进入【Pod部署状态异常诊断】章节 如果是workloadInstallFailed,那么就是helm安装错误:kubectl get app,然后 kubectl...
示例:livenessProbeMissing 通过检查Workload的Pod Spec中是否未配置 livenessProbe,检查是否未配置检测容器内应用是否出现异常需要重启容器的探针。如果未配置,存在容器内应用异常需要重启容器才能恢复时未及时重启导致业务异常的风险...
在线上微服务场景中,当服务提供者的某些实例出现异常时,一方面,需要避免服务消费者访问到异常实例,另一方面,需要保留异常现场,便于后续的问题排查。本文介绍如何将异常Pod实例下线,帮助您及时将异常实例从注册中心摘除。操作步骤 ...
使用Deployment时由于升级策略,可能出现重启Pod时新的Pod一直无法挂载,故不推荐使用Deployment。存储类(StorageClass)如果PVC请求多,就需要创建很多PV,对于运维人员来说维护成本很高,Kubernetes提供了StorageClass这种自动创建PV的...
示例:livenessProbeMissing 通过检查Workload的Pod Spec中是否未配置 livenessProbe,检查是否未配置检测容器内应用是否出现异常需要重启容器的探针。如果未配置,存在容器内应用异常需要重启容器才能恢复时未及时重启导致业务异常的风险...
本文介绍异常检测算法的概念和时序异常检测的语法。引擎与版本 时序异常检测仅支持时序引擎。无版本要求。使用限制 时序异常检测必须和 SAMPLE BY 语句搭配使用。功能简介 时序异常检测用于检测指定时间线上异常点的值,支持阿里达摩院自研...
集群诊断 集群诊断提供一键故障诊断能力,辅助您定位集群中出现的问题,包括Pod诊断、节点诊断、Service诊断、Ingress诊断、内存诊断。诊断项 说明 Pod诊断 涵盖了常见的Pod问题,例如Pod启动失败、Pod镜像拉取失败、Pod运行异常等,并在...
集群诊断 集群诊断提供一键故障诊断能力,辅助您定位集群中出现的问题,包括Pod诊断、节点诊断、Service诊断、Ingress诊断、内存诊断。更多信息,请参见 使用集群诊断。诊断项 说明 Pod诊断 涵盖了常见的Pod问题,例如Pod启动失败、Pod镜像...
通过Pod状态、集群组件状态综合判定Pod异常原因。在诊断详情页面,可以看到Pod的诊断结果、修复建议及具体的诊断项列表。鼠标悬浮在检查项右侧 图标上,即可查看检查项说明。如果有异常或警告类的检查项,会显示在 待处理 页签中。检查项...
关于Pod状态异常的处理方法,请参见 Pod异常问题排查。Pod启动失败 Critical sum_over_time(increase(kube_pod_container_status_restarts_total{}[1m])[5m:1m])>3 最近5分钟内,Pod启动异常累计3次以上时,触发报警。在操作入口,单击 ...
如果灵骏机器节点出现异常,DSW将会通过短信、邮件等方式立即通知您当前账号所配置的联系人。地域限制 目前仅灵骏计算资源组中的DSW实例支持节点自愈。支持的地域包括华北6(乌兰察布)和新加坡。前提条件 已开通灵骏智算资源,详情请参见 ...
容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...
第四部分:回滚(可选)在验证阶段或者发布阶段后的暂停过程中,如果发现组件或业务出现异常,可以通过回滚来将组件恢复到升级前的初始状态。升级前须知 在组件升级前,请确保拥有对业务流量的监控手段,以便及时发现问题。您可以通过SLS...
背景 因02月23日ECS管控API发生异常,ACK及ACK Pro集群网络模式若为Terway(独占ENI或ENI多IP模式),部分用户在异常时间段所创建的Pod的IP会由于信息不一致而导致网络不通。我们建议相关用户核查此类Pod,...如仍出现异常信息,请 提交工单。
ack-sysom-monitor作为SysOM监控组件,在内核层面进行指标采集和增强,本身资源消耗低,通过eBPF技术深度采集节点和容器指标,能够覆盖常见系统抖动、延时、资源泄露、Pod内存异常等问题场景。更多信息,请参见 SysOM内核层容器监控。同时...
若关联的Pod运行异常,请定位解决Pod异常,具体操作请参见 Pod异常问题排查。如果SLB无后端服务器但Pod正常运行,请检查Pod所在节点是否为Master节点。如果是,请将业务Pod驱逐到Worker节点。如果不是,请通过产品钉钉群咨询。alicloud:not...
Unschedulable队列中Pod的数量在其他Pod完成后未出现减少。当前集群中Pod的资源请求不合理,或节点资源配置不足。查看节点资源是否满足Pod需求。查看Pod是否设置了无法满足的节点亲和属性。成功调度一个Pod的尝试次数 正常情况 异常情况 ...
工作流资源中包含每个子任务的状态,该状态被存储在资源的/status/nodes 字段中,当工作流的子任务很多时,资源的总大小可能超过1 MB,此时工作流的状态更新会出现异常。为解决此问题,您可以将工作流的状态信息存储在外部SQL数据库中,以...
在组件安装、升级、更改配置等过程中出现异常问题时,控制台通常会提示相应的操作异常码。您可以根据操作异常码查找对应的问题,查看问题原因和解决方案。本文介绍操作异常码及其问题原因和解决方案。AddonOperationFailed.ResourceExists ...
若关联的Pod运行异常,请定位解决Pod异常,具体操作请参见 Pod异常问题排查。如果SLB无后端服务器但Pod正常运行,请检查Pod所在节点是否为Master节点。如果是,请将业务Pod驱逐到Worker节点。如果不是,请 提交工单。alicloud:not able to ...
若关联的Pod运行异常,请定位解决Pod异常,具体操作请参见 Pod异常问题排查。如果CLB无后端服务器但Pod正常运行,请检查Pod所在节点是否为Master节点。如果是,请将业务Pod驱逐到Worker节点。如果不是,请 提交工单。alicloud:not able to ...
csi-plugin的Pod监控上出现大量流量 问题现象 在集群Pod监控上,csi-plugin的Pod出现大量流量。问题原因 csi-plugin负责当前节点上NAS存储卷的挂载。由于NAS走的是网络流量,当节点存在NAS挂载点(即存在使用NAS的Pod)时,Pod发起的NAS...
ECS实例网卡链路层状态 检查ECS实例网卡链路层是否出现异常。ECS实例未正常启动或网络配置有问题,您可以尝试通过重启实例进行恢复。ECS实例启动状态 检查ECS实例的boot操作是否能正常执行加载。ECS实例无法正常启动,您需要创建一个新的...
Service Mesh 是蚂蚁集团下一代技术架构的核心,也是蚂蚁集团内部双十一应用云化的重要一环,本文主要...设计更完善的灰度机制,在 Operator 出现异常后,快速熔断,避免故障范围扩大。持续思考:整个 Sidecar 的运维方式能否更加“云原生”。
DnsRequest DNS 查询速率,每分钟查询超过100告警 DnsRequestFailed 异常查询,异常状态码,不是 NOERROR DnsPanic DNS Panic,可能收到攻击 应用监控 告警名称 告警描述 KubePodCrashLooping 出现循环崩溃 KubePodNotReady pod 没有就绪 ...
具体操作,请参见 Pod访问其他节点上的Pod异常。通过Service方式访问应用是否正常?具体操作,请参见 通过使用已有SLB的服务暴露应用。通过Ingress方式访问应用是否正常?具体操作,请参见 通过ALB Ingress访问服务。API Server、Scheduler...
如果Pod status.reason为空(fail-fast一般不会出现该情况),可以查看Pod status condition,通过ContainerInstanceCreated的status确认调度状态。如果ContainerInstanceCreated为True,则表示ECI调度成功,是Sandbox创建异常。如果...
kubectl describe pod<pod-name>-n csdr 若原因是 OOM异常重启:请执行以下命令,调整对应Deployment的Limit值。其中,csdr-controller-*对应为 csdr-controller;csdr-velero-*对应为 csdr-velero。kubectl patch deploy<deploy-name>-p '...
常见网络不通的诊断参数 场景一:诊断Pod、Node间网络 若出现Pod与Pod、Pod与Node连接不通的情况,您可以使用网络诊断功能对Pod、Node间的网络进行诊断。诊断参数如下:参数 说明 源地址 Pod或Node地址 目标地址 Pod或Node地址 端口 需要...
本文介绍关于节点异常问题的诊断流程、排查思路、常见问题及解决方案。本文目录 类别 内容 诊断流程 诊断流程 常见...解决方案 通过节点的监控查看CPU增长曲线,确认异常出现时间点,检查节点上的进程是否存在CPU占用过高的现象。具体操作,...
本文介绍关于节点异常问题的诊断流程、排查思路、常见问题及解决方案。本文目录 类别 内容 诊断流程 诊断流程 常见排查...解决方案 通过节点的监控查看CPU增长曲线,确认异常出现时间点,检查节点上的进程是否存在CPU占用过高的现象。具体操作...
K8s事件中心记录了集群的状态变更,包括创建Pod、运行Pod、删除Pod、组件异常等。K8s事件中心实时汇聚Kubernetes集群中的所有事件并提供存储、查询、分析、可视化、告警等能力。本文介绍创建及使用K8s事件中心的操作步骤。前提条件 已创建...
当Kubernetes集群出现问题或者节点异常时,您可通过容器服务ACK提供的一键故障诊断功能,辅助您定位集群中出现的问题,详情请参见 使用集群诊断。如果集群诊断功能无法满足需求,您需要分别在Master节点和异常的Worker节点上收集Kubernetes...