您可以通过存储卷的监控仪表板定位分析客户端的IO操作问题,并定位到问题所在的相关业务(Pod)。例如,哪些频繁的操作会导致系统繁忙、访问元数据繁忙或者产生热点文件(热点数据)占用大量带宽等常见的客户端IO问题。本文通过示例介绍...
进行相关操作(升配Worker节点的资源)前,建议先根据实际负载情况,判断是否需要扩容冗余节点用于承接业务Pod,并将需要升降配的节点排水并移除出伸缩组和ACK集群。具体操作,请参见 移除节点。升降配完成后,再重新参见本文将节点添加回...
Capacity Scheduling核心功能 针对上述问题,阿里云基于Scheduling Framework的扩展机制,在调度侧实现了Capacity Scheduling的功能,在确保用户的资源分配的基础上通过资源共享的方式来提升整体资源的利用率。Capacity Scheduling具有以下...
该视图可以帮助您在应用出现故障时,快速排查关联的资源各自发生了什么问题。例如在大型企业中,由于某个员工的误操作,重启了生产环境的RDS,导致线上业务故障,利用该视图,可以快速的发现应用访问的RDS出现了重启操作。订阅规则 订阅...
优化基础资源配置 默认情况下,完成Argo部署后,argo-server和workflow-controller这两个核心组件并没有指定对应Pod的resources,这会导致这两个组件对应Pod的QoS级别较低,在集群资源不足时会出现组件OOM Kill、Pod被驱逐的情况。...
针对上述问题,ECI支持了等待ClusterIP同步完成后再开始创建Pod的功能,以此来确保Pod中的容器在访问Service时,不会因为ClusterIp还未同步而导致访问超时。2023-12-29 不涉及 配置ECI Pod在ClusterIP同步后再创建 新增ECI规格 指定vCPU和...
验证过程中如果出现任何问题,您可以随时删除这个新版本的Pod,问题解决后再继续升级。ASM网关灰度升级 可观测性能力 ASM网关的访问日志配置主要分为生成和采集。生成指网关打印日志到标准输出,您可以自定义在访问日志中打印哪些字段;...
对于通过hostPath方式挂载数据卷的容器,如果您希望直接采集其在宿主机上映射的日志文件,请选择宿主机路径,其余情况请选择容器内路径。文件路径 如果目标容器节点是Linux系统,则日志路径必须以正斜线(/)开头,例如/apsara/nuwa/*/app....
kube-scheduler是一个控制面组件,负责结合节点资源使用情况和Pod的调度要求将Pod调度到集群的合适节点上。组件介绍 基于Pod申明的Request和节点的Allocatable属性,kube-scheduler可以为调度队列中每个Pod确定其可放置的节点,并保证节点...
您可以通过加速弹性客户端存储卷的监控仪表板定位分析客户端的IO操作问题,并定位到问题所在的相关业务(Pod)。例如,哪些频繁的操作会导致系统繁忙占用大量带宽等常见的客户端IO问题。本文通过示例介绍如何通过CNFS可观测性定位这些问题...
如果您希望为ACK集群提供精细化的流量管理、流量隔离、网络策略配置和IP管理能力,可以通过使用Terway弹性网卡中继为每个Pod配置固定IP、独立的虚拟交换机或安全组来实现。背景信息 弹性网卡中继(Trunk ENI)是一种新的虚拟网卡。除了提供...
解决方案:通过Pod诊断或Ingress异常排查文档查找问题Pod。关于异常问题排查,请参见 Nginx Ingress异常问题排查。Ingress Controller Pod错误日志 异常影响:检查Ingress Controller Pod中是否存在错误日志。出现错误日志,表示Ingress ...
解决方案:通过Pod诊断或Ingress异常排查文档查找问题Pod。关于异常问题排查,请参见 Nginx Ingress异常问题排查。Ingress Controller Pod错误日志 异常影响:检查Ingress Controller Pod中是否存在错误日志。出现错误日志,表示Ingress ...
解决方案:通过Pod诊断或Ingress异常排查文档查找问题Pod。关于异常问题排查,请参见 Nginx Ingress异常问题排查。Ingress Controller Pod错误日志 异常影响:检查Ingress Controller Pod中是否存在错误日志。出现错误日志,表示Ingress ...
容器服务平台提供网络诊断功能,帮助您诊断网络常见问题,例如Pod之间不通、集群到公网访问不通、公网到LoadBalancer不通。本文介绍网络诊断的基本原理、使用方式、以及如何针对常见网络不通的场景定位网络问题和使用网络诊断。重要 使用...
DNS是Kubernetes集群中至关重要的基础服务之一,在客户端设置不合理、集群规模较大等情况下DNS容易出现解析超时、解析失败等现象。本文介绍Kubernetes集群中DNS的最佳实践,帮助您避免此类问题。前提条件 创建Kubernetes托管版集群 获取...
DNS是Kubernetes集群中至关重要的基础服务之一,在客户端设置不合理、集群规模较大等情况下DNS容易出现解析超时、解析失败等现象。本文介绍Kubernetes集群中DNS的最佳实践,帮助您避免此类问题。前提条件 创建Kubernetes托管版集群 获取...
kubectl apply-f ls-pod-demo.yaml 执行以下命令,在单机端的Cgroup分组中查看LS Pod的内核Group Identity生效情况。cat/sys/fs/cgroup/cpu/kubepods.slice/kubepods-pod1c20f2ad*.slice/cpu.bvt_warp_ns 预期输出:#LS Pod的Group ...
配置安全组 检查集群的安全组以及Pod所在的ECS的安全组是否有限制Pod访问目标地址的规则,确保安全组符合以下规则:安全组出方向需要有允许Pod访问目标地址和端口的规则。安全组出方向不能有拒绝Pod访问目标地址和端口的规则。配置访问目的...
但在执行该操作前,您需要评估重建该应用Pod是否会对您的业务造成影响,并且该方案并不能保证重建后的Pod不会再出现该问题。情况四:如果以上情况都不适用,可以评估您的业务能否使用其他操作系统,例如:Alibaba Cloud Linux 2或者CentOS ...
配置安全组 检查集群的安全组以及Pod所在的ECS的安全组是否有限制Pod访问目标地址的规则,确保安全组符合以下规则:安全组出方向需要有允许Pod访问目标地址和端口的规则。安全组出方向不能有拒绝Pod访问目标地址和端口的规则。关于如何管理...
ack-sysom-monitor作为SysOM监控组件,在内核层面进行指标采集和增强,本身资源消耗低,通过eBPF技术深度采集节点和容器指标,能够覆盖常见系统抖动、延时、资源泄露、Pod内存异常等问题场景。更多信息,请参见 SysOM内核层容器监控。同时...
容器智能运维平台 提供一键故障诊断能力,包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断,可以辅助您定位集群中出现的问题。本文介绍如何在ACK集群中使用集群诊断功能。前提条件 已创建Kubernetes托管版集群。具体...
当集群发生资源水位异常情况时,通常需要分解问题,找到具体的Pod。此场景推荐以该集群中的任一Pod的方式配置水位报警规则。配置报警规则时,选择 资源范围 为 容器组(Pod),选择命名空间及容器组Pod为 全部,则当该集群的任一Pod出现...
当大量Pod因为外部事件阻塞导致长时间无法被调度的时候,会影响调度器的性能,调度门控允许声明新创建的Pod尚未准备好进行调度来解决这个问题。当Pod设置 spec.schedulingGates 时,调取程序会忽略该Pod,避免进行不必要的调度尝试。此功能...
第二部分:验证阶段 验证阶段会扩容出1个新版本组件的Pod,验证新版本组件的运行状态以及Ingress规则是否符合预期。扩容成功后,一部分流量将会进入该Pod,此时可以通过容器日志、SLS日志服务或 阿里云Prometheus 监控服务来查看流量是否有...
本文介绍如何在不影响数据盘的情况下进行节点池升级。升级节点池的过程包含前置检查、执行升级。前置检查提示影响升级的风险。您可以对kubelet、操作系统和容器运行时按需组合升级。使用须知 节点池升级功能仅支持有节点的节点池。替盘升级...
当一个Pod资源利用率较高的时候,即使其所在的节点或者集群触发了弹性扩容,但是该应用的Pod数量以及Pod对应的Limit并没有变化,节点负载的压力也无法转移到新扩容出的节点上。如何判断以及执行实例的缩容?如果基于资源利用率的方式判断...
可以发现弹性负载克隆出了新的Deployment与Pod,并且Deployment的Pod副本数目是根据上述的规则进行动态分配的。执行以下命令查看Pod详情。kubectl get pod-o wide 预期输出:NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE ...
前提条件 已创建应用 已创建集群 或 已导入集群 创建应用服务的过程分为以下 6 个步骤:填写基本信息 Pod 模板配置 弹性配置 访问配置 部署和调度配置 预览并提交 一、填写基本信息 登录控制台,在左侧导航栏单击 发布运维>应用服务。...
IT运维人员找到成本趋势异常的命名空间(部门或团队),分析资源利用率和各应用的资源消耗情况,排查出了问题应用;业务研发人员进一步下钻,发现该应用是还未上线的测试应用,却配置了定时伸缩,且副本数较大,浪费了大量较贵的计算资源,...
重要提示 请预留足够资源:使用弹性节点池时请保证弹性节点池的最大资源量以及节点标签能够满足Pod需求,否则可能导致Pod无法使用弹性节点池弹出的节点,造成损失。前提条件 已创建ACK Pro版集群。具体步骤,请参见 创建ACK Pro版集群。...
重要提示 请预留足够资源:使用弹性节点池时请保证弹性节点池的最大资源量以及节点标签能够满足Pod需求,否则可能导致Pod无法使用弹性节点池弹出的节点,造成损失。前提条件 已创建ACK Pro版集群。具体步骤,请参见 创建ACK Pro版集群。...
Citadel Agent 是 Node 粒度组件,基于最小信息可见集的想法,Citadel 在同步信息给 Citadel Agent 时,通过 Host IP,Pod 及 CR 上的 Label 筛选出最小集,仅推送每个 Citadel Agent 自身服务范围的信息。基于 Pod 和 CR 的变更事件,可以...
通过存储多可用区部署优化,可以帮您最大限度地减少应用发布中断,确保关键业务系统和应用在各种故障情况下能持续运行。本文介绍存储在多可用区部署时的推荐配置。背景信息 Kubernetes强大的容器编排能力,使得用户在Kubernetes上构建大...
当您使用阿里云E-MapReduce(简称EMR)on ACK 时,可以根据本文查找对应的问题场景和解决方案。为什么当ShuffleServiceMaster组件中容器组数量为1时,无法启动?为了保证高可用和正常运行,建议至少将该组件的容器组数量配置为3个。这是...
这个过程看似简单,蚂蚁却遇到了 2 个严重问题:Pod 内的容器启动顺序随机,导致业务无法启动。这个问题最终通过调度层修改启动逻辑来解决:Pod 内需要优先等待所有 Sidecar 启动完成。但是,这导致了下述第二所述的新问题。Sidecar 启动慢...
如果未配置的话,Pod有被调度到资源紧张的节点上的风险,可能会出现容器内进程运行缓慢的情况。修改Pod Spec,增加 resources.requests.cpu 字段。示例:cpuLimitsMissing 通过检查Workload的Pod Spec中是否未配置 resources.limits.cpu ...
如果还需要用到应用路由,请注意查看Ingress Controller的监控指标,确认负载情况并设置合理的Pod副本数。承压的应用Pod尽量分布在同一个可用区,以避免跨可用访问的时延问题。如果避免不了Pod分布在不同的可用区,您可以为服务提供者配置...
若Target已经被发现,但显示为红色:表示Prometheus抓取失败,这种情况通常是由于Target自身问题导致,此时您需要根据 Error 列提示的异常原因进行排查。若Target已经被发现,且 State 列显示为 UP(图标①),但期望的指标依然未被采集到...