集群通信会出现哪些问题-集群通信会出现哪些问题文档介绍内容-阿里云

作业调试

否则可能会出现心跳超时等问题影响集群稳定性。此时，您需要增大心跳间隔和心跳超时时间。如果您需要同时运行更多的任务，则需要增加Session集群的资源配置。操作步骤步骤一：创建Session集群进入Session集群管理页面。登录实时计算控制...

历史功能发布记录（2020年及之前）

全部热迁移ACK标准版集群至ACK Pro版集群集群访问SLB支持选择规格集群创建时API Server访问的入口SLB实例已支持自选规格，您可根据自身需求选择不同规格的SLB实例，满足对API Server的不同访问压力。全部创建ACK Pro版集群节点池支持...

管理从集群

切换主集群可能会出现160秒左右的闪断，请您尽量在业务低峰期执行升级操作，并且确保您的应用有自动重连机制。强制切换当前处于灰度发布阶段。如有需求，请前往配额中心，在配额名称为 PolarDB GDN主从强制切换试用的操作列，单击 ...

通过CloudShell管理集群出现超时问题

在用户使用CloudShell管理集群时，可能会出现如下超时错误。Unable to connect to the server:dial tcp XX.XX.XX.XX:6443:i/o timeout 问题原因容器服务与CloudShell集成，在CloudShell环境中安装kubectl工具并配置kubeconfig文件。...

调优集群性能

如下图所示，某个大表分布不均，存储节点0上的Shard_0和Shard_1中数据量较大，而在存储节点1上的Shard_2和Shard_3中数据量较小，那么当您查询这个大表时，较大概率会出现存储节点0需要处理的数据多，存储节点1上需要处理的数据少的情况，...

使用前必读

网络相关注册集群接入您自建或其他云厂商的Kubernetes集群时，请确保目标集群与阿里云之间的网络稳定性，自建的Kubernetes集群通过公网访问阿里云资源时，可能会出现超时等不稳定性问题。注册集群不支持创建和使用LoadBalancer类型的服务...

Kubernetes集群网络异常的排查方法

问题描述在Kubernetes集群内，某个节点上的Pod出现网络访问异常，具体现象如下所示：Pod访问外网异常。Pod访问其他Service异常。Pod访问其他节点上的Pod异常。问题原因集群内ECS的安全组配置错误或者冲突。集群内VPC的路由表条目配置错误...

常见报错

主日志报错：all shards failed 报错说明出现该报错后，集群会出现以下问题：读取请求无法从分片获得响应。由于集群或节点仍处于初始启动过程，导致无法搜索数据。分片丢失或处于恢复模式，并且集群状态为red。报错原因可能原因如下：...

大规模ACK Pro集群使用建议

当您的集群出现Pod状态更新缓慢、调度延迟、存储卷挂载缓慢等显著性能问题时，建议您调大参数。操作步骤及说明，请参见自定义节点池kubelet配置。重要调大kubelet该参数会增大kubelet与API Server的通信QPS。如果kubelet发送的请求数量...

缩容集群数据节点

如果集群负载过高且索引没有副本，同时在缩容过程中存在大量写入或查询等情况，在缩容过程中可能会出现访问超时的问题。建议在缩容前，在客户端中配置好重试机制，减小对业务的影响。缩容数据节点登录阿里云Elasticsearch控制台。在左侧...

集群管理FAQ

当Kubernetes集群出现问题或者节点异常时，您可通过容器服务ACK提供的一键故障诊断功能，辅助您定位集群中出现的问题，详情请参见使用集群诊断。如果集群诊断功能无法满足需求，您需要分别在Master节点和异常的Worker节点上收集Kubernetes...

配置集群流控规则

背景信息集群流控通常适用于以下场景：单机流量不均：由于负载不均衡等原因导致每台机器的流量不均，这时使用单机流控可能会出现没有达到请求总量，某些机器就开始限流的情况。集群小流量流控：某些高可用防护场景下需要将服务调用QPS限制...

通过备份中心实现低版本Kubernetes集群应用迁移

通过备份中心，您可以将Flexvolume集群中的应用迁移至CSI集群中，也可以将低版本的Kubernetes集群应用迁移至新版本集群中。备份中心解决了跨存储插件、跨版本集群间应用迁移的一些问题，例如，需要备份未被应用使用到的Cluster级别资源、...

什么是容器服务 Serverless 版

本文介绍阿里云容器服务 Serverless 版的产品简介、核心优势、与ACK集群对比、应用场景、核心功能等信息，帮助您快速了解 ACK Serverless集群。产品简介容器服务 Serverless 版是阿里云推出的无服务器Kubernetes容器服务。在容器服务 ...

E-MapReduce创建失败

以下列举出常见集群创建失败的原因以及对应解决方案，帮助您在集群创建失败时可以通过FAQ来解决部分问题一、问题：创建集群出现弹窗错误：Your account does not have enough balance 原因：余额需要大于100元，才能正常创建集群二、问题...

常见问题

本文汇总了使用E-HPC时的常见问题。集群相关为什么某些地域无法创建E-HPC集群？如果您在E-HPC支持的地域和可用区下，不能创建E-HPC集群。可能是由于该地域不支持创建集群所需的相关资源，或者资源库存不足。例如：该地域不支持创建NAS文件...

JindoData版本已知问题

JindoSDK 4.4.0版本在EMR集群使用免密高并发访问OSS和OSS-HDFS时，可能会出现coredump。您可以使用固定AccessKey或者升级到4.6.2及以上版本，EMR集群JindoSDK升级请参见 EMR集群JindoSDK升级流程（新版控制台）。4.3.x版本 JindoSDK 4.3.0...

DNS最佳实践

DNS是Kubernetes集群中至关重要的基础服务之一，在客户端设置不合理、集群规模较大等情况下DNS容易出现解析超时、解析失败等现象。本文介绍Kubernetes集群中DNS的最佳实践，帮助您避免此类问题。前提条件创建Kubernetes托管版集群获取...

DNS最佳实践

DNS是Kubernetes集群中至关重要的基础服务之一，在客户端设置不合理、集群规模较大等情况下DNS容易出现解析超时、解析失败等现象。本文介绍Kubernetes集群中DNS的最佳实践，帮助您避免此类问题。前提条件创建Kubernetes托管版集群获取...

ACK集群概述

使用集群诊断：提供一键故障诊断能力，包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断，可以辅助您定位集群中出现的问题。成本分析：支持可视化集群资源使用量及成本分布，以提升集群资源利用率。安全中心：支持...

什么是容器服务 Kubernetes 版

使用集群诊断：提供一键故障诊断能力，包括节点诊断、Pod诊断、Service诊断、Ingress诊断、内存诊断、网络诊断，可以辅助您定位集群中出现的问题。成本分析：支持可视化集群资源使用量及成本分布，以提升集群资源利用率。安全中心：支持...

容器网络FAQ

问题现象 Pod启动后网络需要延迟一会才能通信。问题原因配置Network Policy会有一定的时延，关闭Network Policy后，就能解决该问题。解决方法执行以下命令，修改Terway的ConfigMap，增加禁用NetworkPolicy的配置。kubectl edit cm-n kube...

云边通信组件Raven概述

为了解决上述问题，v1.26.3及以上版本的 ACK Edge集群提供了Raven组件，以实现云边运维以及容器网络通信。工作原理以下图为例，列出了典型的云边协同场景。节点池A：云节点池。所有节点在一个VPC内，选择一个主机作为网关节点（图例为...

历史功能发布记录（2022年）

ACK Serverless集群故障诊断包括Pod诊断、网络诊断等，可以帮助您定位集群中出现的问题。全部使用集群巡检使用集群诊断 ACK Pro版、ACK专有版集群支持配置共享GPU算力分配策略 ACK Pro版、ACK专有版集群支持共享GPU能力，提供共享GPU...

Pod异常问题排查

Pod OOM异常问题处理问题原因当集群中的容器使用超过其限制的内存，容器可能会被终止，触发OOM（Out Of Memory）事件，导致容器异常退出。关于OOM事件，请参见为容器和Pod分配内存资源。问题现象若被终止的进程为容器的阻塞进程，可能...

查询网络通信距离（NCD）

但在多轨连接场景下，由于同一个GPU节点的网卡连接到不同组ASW（例如有8个上连），因此两个GPU节点之间以及不同的灵骏网卡之间可能会出现NCD不同的情况，例如：NCD（GPU1.bond0,GPU2.bond0)=1，NCD（GPU1.bond0,GPU2.bond1)=2。为帮助您更...

功能特性

管理日志健康检查实时检测 EMR Doctor实时检测按5分钟为粒度对集群的实时状态进行检查，您可以通过实时检测了解集群当前的状态、出现的问题，以及发生问题的原因，并对相关问题进行修复，保证集群运行的稳定性。启动实时检测与分析集群...

集群巡检项及解决方案

Ingress就绪Pod百分比异常影响：检查Ingress Deployment已就绪的Pod百分比，小于100表明Ingress Pod可能出现问题，无法正常启动或健康检查失败。解决方案：通过Pod诊断或Ingress异常排查文档查找问题Pod。关于异常问题排查，请参见 Nginx ...

集群巡检项及解决方案

Ingress就绪Pod百分比异常影响：检查Ingress Deployment已就绪的Pod百分比，小于100表明Ingress Pod可能出现问题，无法正常启动或健康检查失败。解决方案：通过Pod诊断或Ingress异常排查文档查找问题Pod。关于异常问题排查，请参见 Nginx ...

功能发布记录（2018~2022年）

本文介绍了2023年之前EDAS每次发布涉及的新增功能、功能优化、重要问题修复及对应的文档，帮助您了解EDAS的发布动态。2022-11-14 功能名称功能描述功能类型相关文档 API快速访问云端服务接口通常只能在集群内部进行访问，不便于测试...

PAI灵骏智算服务概述

针对AI作业规模庞大、GPU硬件资源昂贵、集群GPU利用率低等业务场景实际遇到的问题，PAI灵骏支持GPU虚拟化技术eGPU，可有效提升AI集群的GPU利用率，具体如下：支持显存、算力双维度自由切分。支持多个规格。支持动态创建、销毁。支持热升级...

集群巡检项及解决方案

Ingress就绪Pod百分比异常影响：检查Ingress Deployment已就绪的Pod百分比，小于100表明Ingress Pod可能出现问题，无法正常启动或健康检查失败。解决方案：通过Pod诊断或Ingress异常排查文档查找问题Pod。关于异常问题排查，请参见 Nginx ...

基本概念

集群类型描述 Pro托管集群 ACK Pro托管集群是在ACK标准托管版基础上针对企业大规模生产环境进一步增强了可靠性、安全性，并且提供可赔付的SLA的Kubernetes集群。标准托管集群只需创建节点，控制面板由容器服务创建并托管。具备简单、低...

企业版和标准版功能对比

支持不支持集群回收站集群回收站用于保存已释放的 PolarDB 集群，您可以将回收站中的集群（即已释放的集群）恢复至新集群，或删除已释放集群的备份集。支持支持参数管理 PolarDB 集群创建完成后，您可以通过控制台来修改集群参数和...

ECS选型推荐配置

而对于小规格的ECS拉取镜像的次数就会增多，若需要联动ECS伸缩集群，则需要花费更多的时间，反而达不到立即响应的目的。关于ECS规格的选择，请参见下文选择Master节点规格、选择Worker节点规格。选择Master节点规格通过容器服务创建的...

查看集群概况

智能运维系统通过红黄绿3种颜色来展示集群的健康状况：红色：表示集群已经出现了很严重的问题或者很严重的隐患，已经影响了您的使用，需要立即处理，否则会存在数据丢失，集群故障等问题。黄色：表示集群存在较严重的问题或隐患，可能会...

自动切换可用区

说明集群自动切换到备可用区后，网络是处于跨可用区访问状态，会出现一定的访问延迟，建议您回切到原主可用区。选择回切原主可用区进行回切时，仍然使用原来的交换机。选择更换主可用区进行回切时，可以重新选择交换机。回切原主可用...

查看集群日报与分析

在具体问题中会告知您出现问题的RegionServer、表以及分区等信息，您可以进行相应的优化。集群总览分析在集群总览信息中，您可以获取以下图表信息：集群健康度评分趋势图集群分区均衡度趋势图集群分区数量分布饼图集群请求数趋势图总...

节点异常问题排查

问题现象当集群中的节点调度资源不足时，会导致Pod调度失败，出现以下常见错误信息：集群CPU资源不足：0/2 nodes are available:2 Insufficient cpu 集群内存资源不足：0/2 nodes are available:2 Insufficient memory 集群临时存储不足：...

CoreDNS自动升级

配置IPVS类型集群的UDP超时时间如果您的ACK集群使用了kube-proxy IPVS模式，IPVS的会话保持策略会导致整个集群在升级完成后五分钟内出现概率性解析失败的问题。您可以按以下方式降低IPVS UDP类型的会话保持超时时间至10秒，以减少解析失败...

集群通信会出现哪些问题

新品推荐