GPU集群能干啥-GPU集群能干啥文档介绍内容-阿里云

ack-arms-prometheus

ack-arms-prometheus组件是阿里云Prometheus 在ACK集群中的监控组件。本文介绍ack-arms-prometheus组件信息、使用说明和变更记录。组件介绍 ack-arms-prometheus是阿里云容器服务Kubernetes版提供对接阿里云Prometheus 的监控组件。当在...

Helm版本说明

2020年展开折叠面板查看2020年组件变更记录 Helm版本号 Agent镜像版本号功能概述发布时间变更影响 v0.1.5 arms-prom-operator:v0.1 支持阿里云容器服务Kubernetes版v1.18集群。支持镜像Region从内网地址拉取。2020年10月此次升级不会...

Helm版本说明

2020年展开折叠面板查看2020年组件变更记录 Helm版本号 Agent镜像版本号功能概述发布时间变更影响 v0.1.5 arms-prom-operator:v0.1 支持阿里云容器服务Kubernetes版v1.18集群。支持镜像Region从内网地址拉取。2020年10月此次升级不会...

应用场景

GPU云服务器应用场景直播实时视频转码阿里云GPU云服务器重点支持2019年天猫双11狂欢夜直播的实时视频转码，以高画质、低带宽、高分辨率、实时的综合优势服务于天猫双11狂欢夜当天直播业务4K、2K、1080P等各个分辨率的转码。具体说明如下...

异构计算集群概述

更多信息，请参见创建GPU集群 和创建专有GPU集群。支持以GPU卡为单位申请集群GPU资源。支持自动扩缩容集群GPU节点。更多信息，请参见基于GPU指标实现弹性伸缩。支持GPU共享调度和算力隔离功能。阿里云自研的GPU共享调度将多个模型推理...

安装GPU拓扑感知调度组件

前提条件已创建ACK Pro集群，且集群的实例规格类型选择为 GPU云服务器。更多信息，请参见创建Kubernetes托管版集群。获取集群KubeConfig并通过kubectl工具连接集群。系统组件版本满足以下要求。组件版本要求 Kubernetes 1.18.8及以上...

产品优势

阿里云GPU云服务器具有广阔的覆盖范围、超强的计算能力、出色的网络性能和灵活的购买方式，神行工具包（DeepGPU）是专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集。本文主要介绍GPU云服务器和神行工具包（DeepGPU）的优势。...

重启实例

GPU实例作为云服务器ECS的一类实例规格，保持了与ECS实例相同的管理操作。本文介绍如何通过控制台重启实例。前提条件待重启的实例必须处于运行中状态。背景信息重启操作是维护云服务器的一种常用方式，如系统更新、重启保存相关配置等...

GPU虚拟化型

本文介绍为您介绍云服务器ECS GPU虚拟化型实例规格族的特点，并列出了具体的实例规格。GPU虚拟化型实例规格族sgn7i-vws（共享CPU）GPU虚拟化型实例规格族vgn7i-vws GPU虚拟化型实例规格族vgn6i-vws GPU虚拟化型实例规格族sgn7i-vws（共享...

配置Arena客户端

具体操作，请参见创建GPU集群 或创建专有GPU集群。集群节点可以访问公网。已安装Arena组件。具体操作，请参见部署云原生AI套件。步骤一：配置Arena客户连接集群。专有版集群用SSH方式登录专有版集群的管理节点，然后执行 arena 命令。...

GPU监控

请确保您已在云服务器ECS上安装云监控插件。具体操作，请参见安装云监控插件。监控项说明您可以从GPU、实例和应用分组维度查看GPU相关监控项。GPU的监控项如下表所示。监控项单位 MetricName Dimensions（Agent）GPU维度解码器使用率%...

搭建具备大模型和向量检索功能的知识库应用程序

背景信息 DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型（Large Language Model，LLM）推理引擎，在处理大语言模型任务时，该推理引擎可以为您提供高性能的大模型推理服务。更多信息，请参见什么是推理引擎DeepGPU-LLM。...

连接方式概述

GPU实例作为云服务器ECS的一类实例规格，保持了与ECS实例相同的连接方式。ECS支持通过多种方式连接实例，包括阿里云提供的连接工具（例如Workbench、VNC等）和第三方客户端工具。您可以综合考虑目标实例的操作系统、本地设备的操作系统、...

启动实例

GPU实例作为云服务器ECS的一类实例规格，保持了与ECS实例相同的管理操作。本文介绍如何在ECS管理控制台上启动实例。前提条件实例满足以下条件之一：实例处于已停止状态。按量付费实例处于已过期状态，您已经结清欠费账单但自动重开机...

云原生AI套件管理员运维指南

节点监控大盘可供您查看以下指标：GPU Node Details：以表格的形式展示集群节点的相关信息，包括：节点名称（Name）、节点在集群中的IP（IP）、节点在集群中的角色（Role）、节点的状态（Status）、GPU模式：独占或共享（GPU Mode）、节点...

配置共享GPU调度节点选卡策略

配置项说明实例规格架构选择 GPU云服务器，选择多个GPU实例规格。由于只有在节点有多张GPU卡的情况下，节点选卡策略才能看出效果，建议选择带有多张GPU卡机型。期望节点数设置节点池初始节点数量。如无需创建节点，可以填写为0。节点...

释放实例

GPU实例作为云服务器ECS的一类实例规格，保持了与ECS实例相同的管理操作。当您不再需要某个GPU实例提供服务时，您可以释放该实例，以免产生额外的费用，本文主要介绍释放按量付费实例（包括抢占式实例）和已到期的包年包月实例。前提条件 ...

停止实例

GPU实例作为云服务器ECS的一类实例规格，保持了与ECS实例相同的管理操作。本文介绍停止ECS实例，以及VPC内实例节省停机模式相关操作。前提条件实例必须处于运行中状态。警告停止实例会中断您的业务，请谨慎执行。停止包年包月实例说明...

云原生AI套件计费说明

索引计费说明：计费流程、计费组成、付费方式与计费周期、计费项及定价、计费公式及示例查看账单明细欠费说明计费常见问题计费流程计费组成使用云原生AI套件所产生费用=云原生AI套件费用+ACK费用+其他云产品费用云原生AI套件费用：...

directx-device-plugin-windows

在阿里云上使用虚拟化GPU云服务器时，directx-device-plugin-windows可以为Windows容器提供基于DirectX构建的GPU加速功能。关于虚拟化GPU云服务器的详细介绍，请参见 GPU虚拟化型。directx-device-plugin-windows仅支持v1.20.4及其以上版本...

监控面板说明

GPU监控2.0基于Exporter+Prometheus+Grafana体系打造更为丰富的GPU监控场景。本文介绍监控大盘中各个监控面板（Panel）的含义。Panel介绍 GPU监控2.0包含集群维度监控大盘和节点维度监控大盘。两种大盘的具体说明如下：集群维度监控大盘 ...

GPU FAQ

排查GPU监控常见问题修复GPU实例重启或被置换后设备ID变更问题阿里云容器服务是否支持GPU虚拟化型（vGPU）实例？如何在已有集群的GPU节点上手动升级Kernel？修复GPU节点容器启动问题裸金属实例ecs.ebmgn7节点添加失败怎么办？Alibaba ...

神行工具包（DeepGPU）计费

使用神行工具包（DeepGPU）本身不需要额外支付费用，您只需要为执行计算任务过程中使用的阿里云资源（例如云服务器ECS或文件存储NAS）进行付费。神行工具包中的组件主要包括 AI训练加速器Deepytorch Training、AI推理加速器Deepytorch ...

Databricks Runtime

Databricks Runtimes是在Databricks集群上运行的一组核心组件。Databricks提供了几种类型的Runtime。Databricks Runtime Databricks Runtime包括Apache Spark，但还添加了许多组件和更新，这些组件和更新极大地提高了大数据分析的可用性，...

常见问题旧版索引

弹性伸缩FAQ GPU FAQ 备份中心FAQ 注册集群FAQ 舰队管理FAQ 热点文章集群网络 Kubernetes集群中访问LoadBalancer暴露出去的SLB地址不通部署Ingress Controller使用私网SLB Kubernetes集群网络异常的排查方法 Kubernetes的Service如何进行...

什么是容器服务灵骏版

阿里云容器服务灵骏版是容器服务Kubernetes版（ACK）针对智能计算灵骏提供的集群类型，提供全托管和高可用控制面的标准Kubernetes集群服务，支持以灵骏计算节点作为Kubernetes集群的工作节点。本文介绍阿里云ACK灵骏托管版集群的产品简介...

排查GPU监控常见问题

当GPU监控大盘异常或无数据时，您可以按照本文描述的操作步骤排查GPU监控常见问题。操作步骤步骤一：查看集群中是否有GPU节点登录容器服务管理控制台。在控制台左侧导航栏，单击集群。...相关文档使用阿里云Prometheus监控集群GPU资源

使用eGPU Kubernetes组件

eGPU是容器虚拟化方案，可直接用于支持云原生资源平台，为大规模集群提供GPU共享能力。为了在Kubernetes集群中使用eGPU共享GPU资源，需要通过以下步骤安装eGPU device plugin使能GPU虚拟化的调度能力。前提条件 Docker推荐19.03.5及以上...

GPU节点卡型属性标签

在使用Kubernetes集群实现GPU计算时，为了有效利用GPU设备，可使用GPU节点卡型属性标签将应用调度至目标节点。本文介绍GPU节点卡型属性标签基本信息以及如何使业务运行或不运行在指定卡型上。GPU节点卡型属性标签说明在ACK集群中扩容GPU...

阿里云Prometheus监控

您可以在ACK集群中快速启用阿里云Prometheus，以实时监控集群和容器的健康状况，并查看可视化的Grafana监控数据大盘。您还可按需配置联系人接收监控报警、配置Prometheus抓取自定义的监控指标等。阿里云Prometheus 监控介绍阿里云...

成本洞察功能说明

通过云产品费用趋势与比例分析云产品成本 ③④ ③为集群中各云产品的成本花费占比统计，④为集群中各云产品的成本花费趋势统计。一个集群中会包含多种云产品，不同云产品的使用方式、计费模型不同，会导致云产品产生的费用存在差异。您可以...

Arena在多用户场景下的最佳实践

通常您需要将整个集群的资源（GPU、CPU、MEM）根据具体需求划分给每个组，并且给组内成员分配不同权限，以及提供各自独立的Arena使用环境。其中权限包括：用户对于作业的可见、可操作权限，用户的作业对特定数据的读写权限。图 1.配置多...

节点与节点池FAQ

修复GPU节点容器启动问题添加Kubernetes集群节点的常见问题移除节点时提示”drain-node job execute timeout”错误 ACK集群中kubelet目录路径是什么？支持自定义吗？如何更换节点池OS镜像？更换节点池OS镜像的方法与升级节点池的方法一致...

通过OSS URL自定义节点GPU驱动

不同类型和版本的ACK集群默认安装不同版本的NVIDIA驱动。如果您使用的CUDA库需要匹配更高版本的NVIDIA驱动，需要自定义安装节点的NVIDIA驱动。本文介绍如何基于节点池标签通过OSS URL自定义GPU节点的NVIDIA驱动版本。注意事项对于GPU驱动...

ACK灵骏集群计费说明

云产品名称开通类型产品说明是否支持包年包月是否支持资源包计费说明 ECS云服务器必选项用于为ACK集群创建节点。更多信息，请参见什么是云服务器ECS。不支持不支持计费概述 VPC专有网络必选项用于构建集群网络环境和路由规则。...

使用GPU拓扑感知调度（Pytorch版）

前提条件已创建ACK Pro集群，且集群的实例规格类型选择为 GPU云服务器。更多信息，请参见创建Kubernetes托管版集群。已安装 Arena。已安装GPU拓扑感知调度组件。系统组件版本满足以下要求。组件版本要求 Kubernetes 1.18.8及以上版本 ...

升级节点cGPU版本

ACK集群支持GPU共享调度时节点需要安装cGPU模块。本文介绍如何通过命令及控制台升级节点上的cGPU模块。前提条件您已通过kubectl连接集群。具体操作，请参见通过kubectl连接Kubernetes集群。集群已安装ack-cgpu组件。具体操作，请参见 ...

创建Windows节点池

实例为非GPU云服务器架构。实例规格为4核 8GB及以上。Windows容器在内存使用超出Limitation后并不会执行OOM Killed。自2021年05月起，在v1.16及之后版本的ACK集群，新添加的Windows节点启动时会预留一定的资源（1.5核CPU、2.5 GB RAM、3 GB...

基本概念

本文汇总使用GPU云服务器过程中涉及的基本概念，方便您查询和了解相关概念。GPU云服务器相关概念概念说明 GPU 图形处理器（Graphics Processing Unit）。相比CPU具有众多计算单元和更多的流水线，适合用于大规模并行计算等场景。CUDA ...

通过Prometheus监控GPU实例

接入可观测监控Prometheus版后，您可以通过预定义的大盘监控Kubernetes集群中ECI GPU实例的性能指标。本文主要为您介绍如何通过Prometheus监控ECI GPU实例。前提条件已创建 ACK Serverless集群，且集群已接入可观测监控Prometheus版。具体...

GPU集群能干啥

新品推荐