管理集群

使用共享GPU调度(eGPU)GPU拓扑感知调度Kubernetes节点GPU拓扑信息不感知,调度过程中对GPU的选择比较随机,选择不同的GPU组合训练速度会存在较大的差异。基于以上问题,ACK基于Scheduling Framework机制,实现GPU拓扑感知调度,在...

GPU调度概述

本文介绍调度GPU资源的不同方法,包括使用Kubernetes默认GPU调度、提升GPU资源使用率的共享GPU调度、以及加速任务执行的GPU拓扑感知调度。普通GPU调度 申请Kubernetes GPU集群后,通过运行TensorFlow的GPU实验环境,关于如何使用Kubernetes...

GPU拓扑感知调度

Kubernetes节点GPU拓扑信息不感知,调度过程中对GPU的选择比较随机,选择不同的GPU组合训练速度会存在较大的差异。基于以上问题,ACK基于Scheduling Framework机制,实现GPU拓扑感知调度,在节点GPU组合中选择具有最优训练速度的组合...

GPU节点卡型属性标签

在使用Kubernetes集群实现GPU计算时,为了有效利用GPU设备,可使用GPU节点卡型属性标签将应用调度至目标节点。本文介绍GPU节点卡型属性标签基本信息以及如何使业务运行或不运行在指定卡型上。GPU节点卡型属性标签说明 在ACK集群中扩容GPU...

其他问题

当两个节点调度周期不同时,即上游节点5分钟调度一次,下游节点20分钟调度一次,下游节点如何获取数据?为何周期调度中某个节点的实例实际运行时间和计划时间有差异?任务执行是按照业务连线的先后顺序执行,即当前一节点运行结束,后一...

自建Kubernetes集群迁移镜像及应用至ACK

若您期望将底层的IAAS基础设施和K8s的基础PASS能力交给阿里来管理,可以使用image-syncer、velero来将自建的K8s镜像和应用迁移至阿里容器镜像服务和ACK。场景描述 本最佳实践构建以下场景:以河源ECS构建Harbor仓库,模拟IDC的镜像仓库...

GPU节点调度属性标签

本文介绍GPU节点调度属性标签及如何切换标签的值。GPU节点调度属性标签说明 标签ack.node.gpu.schedule 分类 标签值 是否可以切换到其他标签值 说明 独占GPU调度 default 可切换至:共享GPU调度标签值。GPU拓扑感知调度标签值。节点开启...

异构计算集群概述

支持利用阿里云Kubernetes的FPGA节点标签进行调度。更多信息,请参见 调度负载至FPGA节点。ASIC 阿里容器服务ACK支持创建带有NETINT ASIC设备的集群,支持以单张NETINT ASIC卡为单位申请集群资源。更多信息,请参见 创建ASIC集群。

调度周期:周调度

任务调度周期是基于单个任务维度的配置,任务最终是否每天调度与任务本身定义的调度周期有关,与上游节点调度周期无关,但上游节点定义的调度时间将影响下游节点实际开始调度的时间。配置示例 配置路径 您需要进入数据开发节点的编辑页面,...

调度周期:月调度

任务调度周期是基于单个任务维度的配置,任务最终是否每天调度与任务本身定义的调度周期有关,与上游节点调度周期无关,但上游节点定义的调度时间将影响下游节点实际开始调度的时间。月调度支持将 指定时间 配置为 每月最后一天,则每...

配置自动弹性伸缩

cluster-autoscaler组件将会自动调度到拥有节点标签的云节点上。已通过kubectl连接注册集群。具体操作,请参见 通过kubectl连接集群。步骤一:开启自动弹性伸缩配置 登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,...

在ACK中添加eRDMA节点

支持eRDMA的ECS实例类型,请参见:在企业级实例上配置eRDMA 在GPU实例上配置eRDMA 前提条件 在ACK中添加支持eRDMA的节点时,需要使用阿里官方提供的已经部署好eRDMA驱动的OS镜像。其Image Id为:m-2ze71xexpolzv031di8z。该镜像需要您...

ack-kubernetes-webhook-injector

组件介绍 ack-kubernetes-webhook-injector是一款可以从多种阿里产品白名单中动态加入或移出Pod IP的K8s组件,免去手动配置Pod IP到产品白名单的操作。ack-kubernetes-webhook-injector组件架构如下图所示:使用说明 关于ack-...

UpgradeClusterNodepool-升级节点

您可以调用UpgradeClusterNodepool接口升级指定集群节点池的kubelet版本(建议与控制面版本一致)、操作系统版本或容器运行时版本。接口说明 通过 UpgradeClusterNodepool 可升级指定集群节点池内节点Kubernetes 版本、操作系统版本或...

UpgradeClusterNodepool-升级节点

您可以调用UpgradeClusterNodepool接口升级指定集群节点池的kubelet版本(建议与控制面版本一致)、操作系统版本或容器运行时版本。接口说明 通过 UpgradeClusterNodepool 可升级指定集群节点池内节点Kubernetes 版本、操作系统版本或...

设置离线节点调度信息

如果需要在开发环境场景上线后定时调度该场景中离线计算节点,则需要在开发环境场景上线前配置场景中离线节点调度信息,调度配置在生产环境中生效。本文介绍如何设置开发环境场景中离线节点调度信息。前提条件 开发环境场景画布流程中...

调度负载至FPGA节点

本文介绍根据FPGA节点标签进行节点调度。前提条件 您已成功创建一个拥有FPGA节点的Kubernetes集群。具体操作,请参见 创建FPGA集群。您已连接到Kubernetes集群,方便快速查看节点标签等信息。具体操作,请参见 获取集群KubeConfig并通过...

ACK集群实现GPU AI模型训练

场景描述 本方案适用于AI图片训练场景,使用CPFS和NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。解决问题 搭建AI图片训练基础环境。使用CPFS存储训练数据。使用飞天AI加速训练工具加速训练。使用Arena一...

虚拟节点调度方案对比及介绍

针对虚拟节点,ACK Serverless集群基础版 和 ACK Serverless集群Pro版 支持的调度方式不同,且有其特定的使用场景,例如调度到指定操作系统或架构类型的虚拟节点上、跨可用区亲和等。您可以依据调度场景以及集群类型,参考本文选择合适的...

GPU Device-Plugin相关操作

GPU设备插件(GPU Device-Plugin)是Kubernetes集群中用于管理每个节点GPU的组件,它使得Kubernetes能够更方便、高效地利用GPU资源。本文介绍在独占GPU调度场景下,如何对节点GPU Device-Plugin进行重启和GPU设备隔离等操作,以及如何...

在ACK专有版集群中使用共享GPU调度

如您需要在 ACK专有版集群 中使用共享GPU调度基础版,请参见...基础版迁移专业版 安装共享GPU调度组件 运行共享GPU调度组件 使用共享GPU调度实现仅共享不隔离能力 使用共享GPU调度实现cGPU算力分配策略 解决专业版集群升级共享GPU调度失效问题

共享GPU调度

容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)开源了GPU共享调度之后,您能在阿里、AWS、Google Compute Engine和自己数据中心的容器集群上通过GPU共享调度框架实现多个容器运行在同一个GPU设备上的目标。ACK开源GPU...

确认表血缘

开发环境确认上下游表数据依赖 您可进入上游节点的编辑界面,查看上游节点调度参数配置与节点代码详情。生产环境确认上下游表数据产出 跨空间依赖确认上游表血缘 若您需依赖其他工作空间的节点,可通过数据地图确认表数据每日写入情况。...

在ACK集群中使用云盒资源

ACK集群支持通过创建云盒节点池,使用已部署的云盒内的资源。本文为您介绍如何在ACK集群中使用云盒资源。前提条件 已完成云盒创建、资源购买以及云盒验收,且云盒的状态为运行中。详细信息,请参见 购买云盒。关于云盒的计算资源计费与规格...

创建GPU集群

容器服务 Kubernetes 版支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。本文介绍如何创建GPU集群及查看节点挂载的GPU设备。前提条件 已创建ACK Pro版集群 或 已创建ACK专有版集群。创建GPU节点...

调度配置

配置了依赖关系的节点调度规则为:首先,上游节点运行完成后,才能调度下游节点。其次,根据节点设定的调度时间判断是否执行调度。当您在设定的调度时间之前提交的调度配置,会在设定的调度时间之后生效。而在设定的调度时间之后配置的依赖...

修复节点池操作系统CVE漏洞

节点操作系统中的CVE漏洞可能带来集群数据泄露、服务中断等问题,对集群的稳定性、安全性、合规性造成威胁。您可以启用操作系统(OS)CVE漏洞修复功能,扫描节点上存在的安全漏洞,获得修复建议与方法,并在控制台上完成快速修复。前提条件...

调度配置

配置了依赖关系的节点调度规则为:首先,上游节点运行完成后,才能调度下游节点。其次,根据节点设定的调度时间判断是否执行调度。当您在设定的调度时间之前提交的调度配置,会在设定的调度时间之后生效。而在设定的调度时间之后配置的依赖...

配置基础属性

您可以在调度配置对话框查看调度节点的名称、ID、类型,并配置责任人、描述等基本信息。本文为您介绍调度节点基础属性的参数配置。进入数据开发节点的编辑页面,单击右侧导航栏的 调度配置,在 基础属性 区域配置调度节点的基本信息。参数 ...

收集GPU节点的问题诊断信息

本文介绍如何收集GPU节点的问题诊断信息。Pod问题 当某个申请GPU资源的Pod在某个GPU节点上运行失败,您可以执行以下操作:执行以下命令,查看Pod运行的GPU节点。本文以 test-namespace 命名空间中名为 test-pod 的GPU Pod为例进行说明。...

配置共享GPU调度cGPU算力调度策略

ACK集群Pro版 的共享GPU功能基于cGPU实现。共享GPU算力隔离提供不同的分配策略,您可以在ACK Pro版集群中通过设置共享GPU组件的Policy来选择不同的分配策略。本文介绍通过配置共享GPU算力分配策略,实现不同效果的算力分配。关于cGPU的更多...

调度失败的Pod重新调度到ECI

在Pod进行调度时,如果没有匹配节点(例如已有ECS Worker节点资源不足)时,该组件会接管调度任务,将调度失败的Pod重新调度到ECI(虚拟节点)上。重要 virtual-kubelet-autoscaler组件的安装会占用节点Pod资源。如果您的集群类型为 ACK...

虚拟交换机剩余IP状态感知调度

原生Kubernetes集群调度器节点所属虚拟交换机是否有剩余IP不感知。在多个集群同时使用同一个虚拟交换机或多个节点同时使用同一个虚拟交换机时,可能出现Pod调度节点上后由于虚拟交换机可用IP不足启动失败的情况。这种情况下,Pod控制...

AI负载调度

ACK调度GPU使用的节点标签信息,请参见 GPU节点调度属性标签说明及标签值的切换方法。功能 描述 参考文档 共享GPU调度 GPU共享调度可以降低使用GPU的经济成本,保障程序运行的稳定性。ACK Pro版集群支持以下GPU设备分配策略:单Pod单GPU卡...

原生AI套件计费说明

索引 计费说明:计费流程、计费组成、付费方式与计费周期、计费项及定价、计费公式及示例 查看账单明细 欠费说明 计费常见问题 计费流程 计费组成 使用原生AI套件所产生费用=原生AI套件费用+ACK费用+其他产品费用 原生AI套件费用:...

手动升级GPU节点驱动

前提条件 获取集群KubeConfig并通过kubectl工具连接集群 操作步骤 步骤一:下线 节点与排空节点 执行以下命令,将待升级驱动的GPU节点设置为不可调度状态。kubectl cordon其中为节点名称。预期输出:node/<NODE_NAME>cordoned 执行以下命令...

调度概述

共享GPU调度概述 共享GPU调度专业版 GPU/CPU拓扑感知调度 调度器基于节点异构资源的拓扑信息,如GPU卡之间的NVLink、PcleSwitch等通信方式、CPU的NUMA拓扑结构等,在集群维度进行最佳的调度选择,为工作负载提供更好的性能。CPU拓扑感知...

查询网络通信距离(NCD)

PAI灵骏提供了统一的网络通信距离NCD(Network Communication Distance)查询接口,供您对GPU节点(或网卡)间的通信距离进行查询,以实现更优的任务调度,获得最佳的训练性能。本文为您介绍NCD的基本概念、使用NCD的原因以及如何使用NCD。...

边缘节点池管理概述

针对这种场景,容器服务 Edge 版 的提供了边缘节点池(NodePool)的功能,将节点按照特定属性抽象成节点池概念,以节点池的维度对不同边缘区域下的节点进行统一管理和运维。本文简单介绍边缘节点池的概念和工作原理。传统边缘管理 在边缘...

创建安全沙箱节点

容器服务 Kubernetes利用节点池管理节点,本文介绍如何创建安全沙箱节点池。使用限制 支持Kubernetes版本为1.28及以下的 ACK托管集群 和 ACK专有版集群。操作步骤 创建节点池时将容器运行时设置为安全沙箱即可。详细信息,请参见 创建...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
容器服务 Kubernetes 版 ACK 弹性公网IP 阿里邮箱 数字证书管理服务(原SSL证书) 商标服务 短信服务
新人特惠 爆款特惠 最新活动 免费试用