开启集群GPU监控

前提条件 已创建托管GPU集群或专有GPU集群。具体操作,请参见 创建GPU集群 或 创建专有GPU集群。已开通ARMS。具体操作,请参见 开通ARMS。背景信息 对运维人员来说,实现对Kubernetes的大规模GPU设备可监测能力至关重要。通过监测GPU相关...

ACK集群实现GPU AI模型训练

场景描述 本方案适用于AI图片训练场景,使用CPFS和NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。解决问题 搭建AI图片训练基础环境。使用CPFS存储训练数据。使用飞天AI加速训练工具加速训练。使用Arena一...

创建GPU集群

容器服务 Kubernetes 版支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。本文介绍如何创建GPU集群及查看节点挂载的GPU设备。前提条件 已创建ACK Pro版集群 或 已创建ACK专有版集群创建GPU节点...

通过边缘容器集群管理ENS实例

创建托管集群,请参见 创建ACK Edge集群。注意事项 边缘实例加入托管集群过程中会重启实例,请确保托管时不会影响您的业务。ENS仅支持运行中的边缘实例加入托管集群。操作步骤 登录 ENS控制台。选择 资源管理>实例,进入实例页面。单击实例...

异构计算产品最佳实践概览

GPU AI模型训练最佳实践 适用于AI图片训练场景,使用CPFS/NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行AI图片训练。在GPU实例上使用RAPIDS加速机器学习任务 在GPU实例上基于NGC环境使用RAPIDS加速库,加速数据科学和...

异构计算集群概述

更多信息,请参见 创建GPU集群创建专有GPU集群。支持以GPU卡为单位申请集群GPU资源。支持自动扩缩容集群GPU节点。更多信息,请参见 基于GPU指标实现弹性伸缩。支持GPU共享调度和算力隔离功能。阿里自研的GPU共享调度将多个模型推理...

使用阿里Prometheus监控集群GPU资源

前提条件 您已完成以下操作:创建GPU集群创建专有GPU集群。开通 阿里Prometheus服务。已安装阿里Prometheus监控。具体操作,请参见 阿里Prometheus监控。费用说明 在ACK集群中使用 ack-gpu-exporter 组件时,默认情况下它产生的...

【产品变更】托管集群节点RAM角色收敛公告

当前托管集群节点默认的WorkerRolePolicy权限较大,为了进一步加强托管集群节点在多租户场景下的安全隔离性,容器服务Kubernetes版ACK(Container Service for Kubernetes)已收敛托管集群节点RAM角色绑定的权限。角色授权 原有的RAM角色...

边缘集群云端ECS节点说明

边缘托管集群中至少有一个云服务器ECS(Elastic Compute Service)作为云端节点,用于部署云端管控应用。本文介绍边缘云端ECS节点的作用,以及如何新增云端节点。边缘计算云端管控节点 在边缘托管集群创建过程中,平台会默认为您创建至少...

API参考

如果您熟悉网络服务协议和一种以上编程语言,推荐您调用API管理您的上资源和开发自己的应用程序。GPU云服务器适用的API和云服务器ECS一致,详情请参见 ECS API简介 和 ECS API概览。

自定义集群API Server证书SAN

具体操作,请参见 创建Kubernetes托管集群创建Kubernetes专有版集群 或 创建ACK Serverless集群。重要 ACK Serverless集群 不支持在新建集群时自定义SAN字段,仅支持在已有集群中更新SAN字段。ACK专有集群 仅支持在新建集群时自定义SAN...

自定义集群API Server证书SAN

具体操作,请参见 创建Kubernetes托管集群创建Kubernetes专有版集群 或 创建集群。重要 ACK Serverless集群 不支持在新建集群时自定义SAN字段,仅支持在已有集群中更新SAN字段。ACK专有集群 仅支持在新建集群时自定义SAN字段,不支持在...

K8s资源管理概述

创建托管版Kubernetes集群的具体操作,请参见 创建Kubernetes托管版集群。创建Serverless Kubernetes集群的具体操作,请参见 容器服务 Serverless 版使用快速入门。专有版Kubernetes集群和托管版Kubernetes集群导入到EDAS中对应的是容器...

使用指引

创建集群创建托管版集群。具体操作,请参见 创建Kubernetes托管版集群。如果您需要创建其他类型的集群,例如自定义镜像创建的集群,或使用其他方式创建集群,例如通过OpenAPI参数来创建,请参见 创建集群。部署应用:通过镜像或编排模板...

管理Knative组件

具体操作,请参见 创建ACK Serverless集群创建Kubernetes托管版集群。已为集群部署Knative,具体操作,请参见 在ACK集群中部署Knative、在ACK Serverless集群中部署Knative。部署Knative组件 登录 容器服务管理控制台,在左侧导航栏选择 ...

管理Knative组件

具体操作,请参见 创建ACK Serverless集群创建Kubernetes托管版集群。已为集群部署Knative,具体操作,请参见 在ACK集群中部署Knative、在ACK Serverless集群中部署Knative。部署Knative组件 登录 容器服务管理控制台,在左侧导航栏选择 ...

创建修订版本

具体操作,请参见 创建ACK Serverless集群创建Kubernetes托管版集群。已为集群部署Knative,具体操作,请参见 在ACK集群中部署Knative、在ACK Serverless集群中部署Knative。已部署Knative服务。创建修订版本 登录 容器服务管理控制台,...

创建FPGA集群

根据各个地域和可用区支持的FPGA实例规格情况,选择创建托管FPGA集群的地域。关于ECS实例规格可购买地域总览,请参见 ECS 实例规格可购买地域总览。FPGA实例需要使用包括Xilinx开发环境的镜像,目前只能通过共享镜像的方式提供,请向FaaS...

部署Eventing

具体操作,请参见 创建ACK Serverless集群创建Kubernetes托管版集群。已为集群部署Knative,具体操作,请参见 在ACK集群中部署Knative、在ACK Serverless集群中部署Knative。已通过kubectl连接到Kubernetes集群。具体操作,请参见 获取...

部署Eventing

具体操作,请参见 创建ACK Serverless集群创建Kubernetes托管版集群。已为集群部署Knative,具体操作,请参见 在ACK集群中部署Knative、在ACK Serverless集群中部署Knative。已通过kubectl连接到Kubernetes集群。具体操作,请参见 获取...

使用RAPIDS加速机器学习最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速机器学习环境。使用容器服务Kubernetes版部署RAPIDS加速机器学习环境。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务器 该...

设置组件监控告警

集群创建完成,系统将自动配置 阿里Prometheus 监控服务。方式二:在已有集群中开启 登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,选择 运维管理>Prometheus 监控。在 ...

操作系统镜像概述

创建托管集群的时候不支持选择Windows系统。Alibaba Cloud Linux 3 Arm版操作系统仅支持Arm架构的实例规格。自定义镜像操作系统不支持在托管节点池场景下的故障自愈和节点池升级功能中的OS升级。相关文档 通过 节点池,您可以更方便地对...

使用VPC的多路由表功能

前提条件 已创建ACK集群创建ACK托管集群。具体操作,请参见 创建Kubernetes托管版集群。说明 仅1.18及以上版本的ACK托管集群支持此功能;如果ACK托管集群版本低于1.18,请 提交工单 处理。创建ACK专有集群。具体操作,请参见 创建...

为应用开启WAF防护

具体操作,请参见 创建Kubernetes托管集群创建Kubernetes专有版集群、容器服务 Serverless 版使用快速入门。已创建两个不同可用区的交换机,且与集群处于同一VPC。具体操作,请参见 创建和管理交换机。已为集群安装ALB Ingress ...

使用Helm方式管理K8s集群

在 容器服务Kubernetes版 控制台创建集群 在EDAS中使用容器服务K8s集群,请在 容器服务Kubernetes版 控制台创建托管版Kubernetes集群或专有版Kubernetes集群,请参见:快速创建Kubernetes托管版集群 创建Kubernetes专有版集群 在EDAS中使用...

在EDAS控制台管理K8s集群

在 容器服务Kubernetes版 控制台创建集群 在EDAS中使用容器服务K8s集群,请在 容器服务Kubernetes版 控制台创建托管版Kubernetes集群或专有版Kubernetes集群,请参见:快速创建Kubernetes托管版集群 创建Kubernetes专有版集群 在EDAS中使用...

快速入门

ACK Edge集群 创建边缘托管版集群 原生AI套件 原生AI套件开发者使用指南 介绍开发者如何利用原生AI套件,在ACK集群运行深度学习任务,优化分布式训练性能,调试模型效果,并最终把模型部署到ACK集群中。原生AI套件管理员运维指南 ...

使用ACK支持的Nginx镜像部署无状态应用

ACK托管集群 默认安装的Ingress为Nginx Ingress,如果您手动修改过,请在集群创建完成后安装Nginx Ingress Controller。详细信息,请参见 安装Nginx Ingress Controller。步骤一:创建Nginx应用 登录 容器服务管理控制台,在左侧导航栏选择...

闲置资源优化

具体操作,请参见 创建Kubernetes托管集群创建Kubernetes专有版集群。执行闲置资源检查 重要 闲置资源检查时,系统将扫描您集群中的所有资源并查询资源的状态信息。此操作可能会影响业务的正常运行,请避免在业务高峰期执行此检查。...

管理配置项

具体操作,请参见 创建Kubernetes托管集群创建集群创建配置项 登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,选择 配置管理>配置项。在 配置项 页面,选择该配置项所属的...

管理配置项

具体操作,请参见 创建Kubernetes托管集群创建集群创建配置项 登录 容器服务管理控制台,在左侧导航栏选择 集群。在 集群列表 页面,单击目标集群名称,然后在左侧导航栏,选择 配置管理>配置项。在 配置项 页面,选择该配置项所属的...

使用ACK服务实现GPU的成本优化

利用阿里容器服务ACK部署GPU集群后,出于成本优化考虑,针对集群中GPU利用率不同的应用,选择不同的成本优化方案,可以实现集群的灵活管理,同时整体降低成本。例如,对于集群中GPU利用率不高的应用(例如推理应用),建议选择cGPU技术将...

管理ALB Ingress Controller组件

安装ALB Ingress Controller 方式一:创建集群时安装 创建 ACK托管集群 或 ACK专有集群 时,在 Ingress 参数配置区域,选择安装 ALB Ingress。具体操作,请参见 创建ACK Pro版集群。方式二:已有集群中安装 登录 容器服务管理控制台,在...

创建Kubernetes集群

创建自定义资源组前,需要准备好Kubernetes集群,建议新建托管集群。本文介绍如何创建Kubernetes托管集群以及关键参数的推荐配置。关于如何创建Kubernetes托管集群,详情请参见 创建Kubernetes托管集群。关键参数推荐配置如下,...

创建Kubernetes集群

创建自定义资源组前,需要准备好Kubernetes集群,建议新建托管集群。本文介绍如何创建Kubernetes托管集群以及关键参数的推荐配置。关于如何创建Kubernetes托管集群,详情请参见 创建Kubernetes托管集群。关键参数推荐配置如下,...

启用集群检查

具体操作,请参见 创建Kubernetes托管集群 创建ACK Serverless集群。已确保Kubernetes集群处于正常运行中状态(登录 容器服务管理控制台,在 集群列表 页面确认集群状态为 运行中)。索引 集群检查介绍 操作步骤 查看检查结果 集群检查...

ALIYUN:CS:ASKCluster

集群创建时除了安装必需组件外,还会额外安装一些日志组件等,您可以禁止这些默认行为,后续通过安装组件的API进行安装或通过控制台安装。取值:true:禁止默认安装。false:允许默认安装。Name String 是 否 组件名称。无 Tags语法"Tags":...

管理配置项

在EDAS中使用容器服务K8s集群,请在 容器服务Kubernetes版 控制台创建托管版Kubernetes集群或专有版Kubernetes集群,请参见:快速创建Kubernetes托管版集群 创建Kubernetes专有版集群 在EDAS中使用Serverless K8s集群,请在 容器服务...

管理保密字典

在EDAS中使用容器服务K8s集群,请在 容器服务Kubernetes版 控制台创建托管版Kubernetes集群或专有版Kubernetes集群,请参见:快速创建Kubernetes托管版集群 创建Kubernetes专有版集群 在EDAS中使用Serverless K8s集群,请在 容器服务...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数字证书管理服务(原SSL证书) 微服务引擎 云数据库 Redis 版 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用