前提条件 已创建托管GPU集群或专有GPU集群。具体操作,请参见 创建GPU集群 或 创建专有GPU集群。已开通ARMS。具体操作,请参见 开通ARMS。背景信息 对运维人员来说,实现对Kubernetes的大规模GPU设备可监测能力至关重要。通过监测GPU相关...
场景描述 本方案适用于AI图片训练场景,使用CPFS和NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。解决问题 搭建AI图片训练基础环境。使用CPFS存储训练数据。使用飞天AI加速训练工具加速训练。使用Arena一...
容器服务 Kubernetes 版支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。本文介绍如何创建GPU集群及查看节点挂载的GPU设备。前提条件 已创建ACK Pro版集群 或 已创建ACK专有版集群。创建GPU节点...
创建托管集群,请参见 创建ACK Edge集群。注意事项 边缘实例加入托管集群过程中会重启实例,请确保托管时不会影响您的业务。ENS仅支持运行中的边缘实例加入托管集群。操作步骤 登录 ENS控制台。选择 资源管理>实例,进入实例页面。单击实例...
GPU AI模型训练最佳实践 适用于AI图片训练场景,使用CPFS/NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行AI图片训练。在GPU实例上使用RAPIDS加速机器学习任务 在GPU实例上基于NGC环境使用RAPIDS加速库,加速数据科学和...
更多信息,请参见 创建GPU集群 和 创建专有GPU集群。支持以GPU卡为单位申请集群GPU资源。支持自动扩缩容集群GPU节点。更多信息,请参见 基于GPU指标实现弹性伸缩。支持GPU共享调度和算力隔离功能。阿里云自研的GPU共享调度将多个模型推理...
前提条件 您已完成以下操作:创建GPU集群 或 创建专有GPU集群。开通 阿里云Prometheus服务。已安装阿里云Prometheus监控。具体操作,请参见 阿里云Prometheus监控。费用说明 在ACK集群中使用 ack-gpu-exporter 组件时,默认情况下它产生的...
当前托管集群节点默认的WorkerRolePolicy权限较大,为了进一步加强托管集群节点在多租户场景下的安全隔离性,容器服务Kubernetes版ACK(Container Service for Kubernetes)已收敛托管集群节点RAM角色绑定的权限。角色授权 原有的RAM角色...
边缘托管集群中至少有一个云服务器ECS(Elastic Compute Service)作为云端节点,用于部署云端管控应用。本文介绍边缘云端ECS节点的作用,以及如何新增云端节点。边缘计算云端管控节点 在边缘托管集群创建过程中,平台会默认为您创建至少...
如果您熟悉网络服务协议和一种以上编程语言,推荐您调用API管理您的云上资源和开发自己的应用程序。GPU云服务器适用的API和云服务器ECS一致,详情请参见 ECS API简介 和 ECS API概览。
具体操作,请参见 创建Kubernetes托管版集群、创建Kubernetes专有版集群 或 创建ACK Serverless集群。重要 ACK Serverless集群 不支持在新建集群时自定义SAN字段,仅支持在已有集群中更新SAN字段。ACK专有集群 仅支持在新建集群时自定义SAN...
具体操作,请参见 创建Kubernetes托管版集群、创建Kubernetes专有版集群 或 创建集群。重要 ACK Serverless集群 不支持在新建集群时自定义SAN字段,仅支持在已有集群中更新SAN字段。ACK专有集群 仅支持在新建集群时自定义SAN字段,不支持在...
创建托管版Kubernetes集群的具体操作,请参见 创建Kubernetes托管版集群。创建Serverless Kubernetes集群的具体操作,请参见 容器服务 Serverless 版使用快速入门。专有版Kubernetes集群和托管版Kubernetes集群导入到EDAS中对应的是容器...
创建集群:创建托管版集群。具体操作,请参见 创建Kubernetes托管版集群。如果您需要创建其他类型的集群,例如自定义镜像创建的集群,或使用其他方式创建集群,例如通过OpenAPI参数来创建,请参见 创建集群。部署应用:通过镜像或编排模板...
具体操作,请参见 创建ACK Serverless集群、创建Kubernetes托管版集群。已为集群部署Knative,具体操作,请参见 在ACK集群中部署Knative、在ACK Serverless集群中部署Knative。部署Knative组件 登录 容器服务管理控制台,在左侧导航栏选择 ...
具体操作,请参见 创建ACK Serverless集群、创建Kubernetes托管版集群。已为集群部署Knative,具体操作,请参见 在ACK集群中部署Knative、在ACK Serverless集群中部署Knative。部署Knative组件 登录 容器服务管理控制台,在左侧导航栏选择 ...
具体操作,请参见 创建ACK Serverless集群、创建Kubernetes托管版集群。已为集群部署Knative,具体操作,请参见 在ACK集群中部署Knative、在ACK Serverless集群中部署Knative。已部署Knative服务。创建修订版本 登录 容器服务管理控制台,...
根据各个地域和可用区支持的FPGA实例规格情况,选择创建托管FPGA集群的地域。关于ECS实例规格可购买地域总览,请参见 ECS 实例规格可购买地域总览。FPGA实例需要使用包括Xilinx开发环境的镜像,目前只能通过共享镜像的方式提供,请向FaaS...
具体操作,请参见 创建ACK Serverless集群、创建Kubernetes托管版集群。已为集群部署Knative,具体操作,请参见 在ACK集群中部署Knative、在ACK Serverless集群中部署Knative。已通过kubectl连接到Kubernetes集群。具体操作,请参见 获取...
具体操作,请参见 创建ACK Serverless集群、创建Kubernetes托管版集群。已为集群部署Knative,具体操作,请参见 在ACK集群中部署Knative、在ACK Serverless集群中部署Knative。已通过kubectl连接到Kubernetes集群。具体操作,请参见 获取...
方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速机器学习环境。使用容器服务Kubernetes版部署RAPIDS加速机器学习环境。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务器 该...
集群创建完成,系统将自动配置 阿里云Prometheus 监控服务。方式二:在已有集群中开启 登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,选择 运维管理>Prometheus 监控。在 ...
创建托管版集群的时候不支持选择Windows系统。Alibaba Cloud Linux 3 Arm版操作系统仅支持Arm架构的实例规格。自定义镜像操作系统不支持在托管节点池场景下的故障自愈和节点池升级功能中的OS升级。相关文档 通过 节点池,您可以更方便地对...
前提条件 已创建ACK集群:创建ACK托管集群。具体操作,请参见 创建Kubernetes托管版集群。说明 仅1.18及以上版本的ACK托管集群支持此功能;如果ACK托管集群版本低于1.18,请 提交工单 处理。创建ACK专有集群。具体操作,请参见 创建...
具体操作,请参见 创建Kubernetes托管版集群、创建Kubernetes专有版集群、容器服务 Serverless 版使用快速入门。已创建两个不同可用区的交换机,且与集群处于同一VPC。具体操作,请参见 创建和管理交换机。已为集群安装ALB Ingress ...
在 容器服务Kubernetes版 控制台创建集群 在EDAS中使用容器服务K8s集群,请在 容器服务Kubernetes版 控制台创建托管版Kubernetes集群或专有版Kubernetes集群,请参见:快速创建Kubernetes托管版集群 创建Kubernetes专有版集群 在EDAS中使用...
在 容器服务Kubernetes版 控制台创建集群 在EDAS中使用容器服务K8s集群,请在 容器服务Kubernetes版 控制台创建托管版Kubernetes集群或专有版Kubernetes集群,请参见:快速创建Kubernetes托管版集群 创建Kubernetes专有版集群 在EDAS中使用...
ACK Edge集群 创建边缘托管版集群 云原生AI套件 云原生AI套件开发者使用指南 介绍开发者如何利用云原生AI套件,在ACK集群运行深度学习任务,优化分布式训练性能,调试模型效果,并最终把模型部署到ACK集群中。云原生AI套件管理员运维指南 ...
ACK托管集群 默认安装的Ingress为Nginx Ingress,如果您手动修改过,请在集群创建完成后安装Nginx Ingress Controller。详细信息,请参见 安装Nginx Ingress Controller。步骤一:创建Nginx应用 登录 容器服务管理控制台,在左侧导航栏选择...
具体操作,请参见 创建Kubernetes托管版集群、创建Kubernetes专有版集群。执行闲置资源检查 重要 闲置资源检查时,系统将扫描您集群中的所有资源并查询资源的状态信息。此操作可能会影响业务的正常运行,请避免在业务高峰期执行此检查。...
具体操作,请参见 创建Kubernetes托管版集群、创建集群。创建配置项 登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,选择 配置管理>配置项。在 配置项 页面,选择该配置项所属的...
具体操作,请参见 创建Kubernetes托管版集群、创建集群。创建配置项 登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,选择 配置管理>配置项。在 配置项 页面,选择该配置项所属的...
利用阿里云容器服务ACK部署GPU集群后,出于成本优化考虑,针对集群中GPU利用率不同的应用,选择不同的成本优化方案,可以实现集群的灵活管理,同时整体降低成本。例如,对于集群中GPU利用率不高的应用(例如推理应用),建议选择cGPU技术将...
安装ALB Ingress Controller 方式一:创建集群时安装 创建 ACK托管集群 或 ACK专有集群 时,在 Ingress 参数配置区域,选择安装 ALB Ingress。具体操作,请参见 创建ACK Pro版集群。方式二:已有集群中安装 登录 容器服务管理控制台,在...
创建自定义资源组前,需要准备好Kubernetes集群,建议新建托管版集群。本文介绍如何创建Kubernetes托管版集群以及关键参数的推荐配置。关于如何创建Kubernetes托管版集群,详情请参见 创建Kubernetes托管版集群。关键参数推荐配置如下,...
创建自定义资源组前,需要准备好Kubernetes集群,建议新建托管版集群。本文介绍如何创建Kubernetes托管版集群以及关键参数的推荐配置。关于如何创建Kubernetes托管版集群,详情请参见 创建Kubernetes托管版集群。关键参数推荐配置如下,...
具体操作,请参见 创建Kubernetes托管版集群 创建ACK Serverless集群。已确保Kubernetes集群处于正常运行中状态(登录 容器服务管理控制台,在 集群列表 页面确认集群状态为 运行中)。索引 集群检查介绍 操作步骤 查看检查结果 集群检查...
集群创建时除了安装必需组件外,还会额外安装一些日志组件等,您可以禁止这些默认行为,后续通过安装组件的API进行安装或通过控制台安装。取值:true:禁止默认安装。false:允许默认安装。Name String 是 否 组件名称。无 Tags语法"Tags":...
在EDAS中使用容器服务K8s集群,请在 容器服务Kubernetes版 控制台创建托管版Kubernetes集群或专有版Kubernetes集群,请参见:快速创建Kubernetes托管版集群 创建Kubernetes专有版集群 在EDAS中使用Serverless K8s集群,请在 容器服务...
在EDAS中使用容器服务K8s集群,请在 容器服务Kubernetes版 控制台创建托管版Kubernetes集群或专有版Kubernetes集群,请参见:快速创建Kubernetes托管版集群 创建Kubernetes专有版集群 在EDAS中使用Serverless K8s集群,请在 容器服务...