GPU集群干啥用的-GPU集群干啥用的文档介绍内容-阿里云

在GPU集群中加速AI模型训练

本文适用于AI图片的训练场景，使用文件存储CPFS/NAS作为共享存储，使用容器服务Kubernetes版管理GPU云服务器集群实现AI图片的训练加速。方案优势使用阿里云的容器服务ACK可快速搭建AI图片训练基础环境。使用CPFS存储训练数据，支持多个...

API参考

如果您熟悉网络服务协议和一种以上编程语言，推荐您调用API管理您的云上资源和开发自己的应用程序。GPU云服务器适用的API和云服务器ECS一致，详情请参见 ECS API简介和 ECS API概览。

什么是推理引擎DeepGPU-LLM

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型（Large Language Model，LLM）推理引擎，在处理大语言模型任务中，该推理引擎可以为您提供高性能的大模型推理服务。产品简介 DeepGPU-LLM作为阿里云开发的一套推理引擎，具有易用性...

开启集群GPU监控

新一代NVIDIA支持使用数据中心GPU管理器DCGM（Data Center GPU Manager）来管理大规模集群中的GPU，GPU监控2.0基于NVIDIA DCGM构建功能更强大的GPU监控体系。DCGM提供了种类丰富的GPU监控指标，有如下功能特性：GPU行为监控 GPU配置管理 ...

GPU云服务器计费

GPU云服务器计费相关功能与云服务器ECS一致，本文为您介绍GPU云服务器涉及的计费项、计费方式、续费和退费说明等。计费项及其计费方式一台GPU实例包括计算资源（vCPU、内存和GPU）、镜像、块存储等资源，其中涉及计费的GPU资源如下表所示...

PAI-TF概述

MaxCompute全局计算调度服务能够将PAI-TF作业自动调度至相应的GPU集群，并将基于CPU集群的数据预处理作业和基于GPU集群的模型训练作业连接起来。GPU卡映射 PAI-TF支持将不同算子（Operators）指定至特定的CPU或GPU上。基于GPU卡映射，您...

使用云原生AI监控大盘

云原生AI的监控组件能够帮助您从不同的维度（比如：集群、节点、训练任务等）监控集群的GPU资源使用情况，以及集群的各命名空间下的资源配额使用情况。本文分别从集群、节点、训练任务和资源配额维度介绍监控大盘，以及介绍如何安装和使用...

多集群报警差异化配置

如下示例中，ack-cluster-1 为CPU集群，ack-cluster-2 为GPU集群，该示例可实现对 ack-cluster-2 即GPU集群的差异化配置，包括开启GPU报警、修改报警阈值和告警联系人。apiVersion:core.oam.dev/v1alpha1#定义分发目标集群，使用Cluster ID...

GPU云服务器常见问题

为了有效排查和解决GPU云服务器的相关问题，本文为您汇总了使用GPU时遇到的一些常见问题。类别相关问题功能问题为什么Windows操作系统不支持DirectX等功能？GPU实例支持安卓模拟器吗？我能变更GPU实例的配置吗？按量付费GPU实例支持节省...

接入NVIDIA GPU监控数据

如果您使用阿里云ECS的GPU实例，则GPU实例中已默认安装驱动，可跳过此步骤。步骤二：创建Logtail采集配置登录日志服务控制台。在接入数据区域的监控数据页签下，单击 NVIDIA GPU监控。选择目标Project和MetricStore，单击下一步。...

接入Nvidia GPU监控数据

如果您使用阿里云ECS的GPU实例，则GPU实例中已默认安装驱动，可跳过此步骤。步骤二：创建Logtail采集配置登录日志服务控制台。在日志应用区域的智能运维页签下，单击全栈可观测。在 SLS全栈可观测页面，单击目标实例。在左侧导航栏...

使用RAPIDS加速机器学习最佳实践

方案优势阿里云GPU云服务器资源丰富，可灵活选择在GPU上搭建RAPIDS加速机器学习环境。使用容器服务Kubernetes版部署RAPIDS加速机器学习环境。共享存储NAS可提供强大的存储性能。部署架构图选用的产品列表产品名称说明 GPU云服务器 该...

使用RAPIDS加速图像搜索最佳实践

方案优势阿里云GPU云服务器资源丰富，可灵活选择在GPU上搭建RAPIDS加速图像搜索环境。使用容器服务Kubernetes版可快速部署图像搜索环境和分发应用。共享存储NAS可提供强大的存储性能。部署架构图选用的产品列表产品名称说明 GPU云服务...

云原生AI套件管理员运维指南

当部署一个云原生AI集群之后，集群管理员需要对集群资源进行划分，并从多个维度查看集群资源的使用情况，以便及时做出调整，使集群达到最佳的利用率。本文介绍云原生AI集群的基本运维操作，包括安装AI套件、查看资源大盘、管理用户和配额。...

创建GPU集群

本文介绍如何创建GPU集群及查看节点挂载的GPU设备。前提条件已创建ACK Pro版集群或已创建ACK专有版集群。创建GPU节点池创建GPU节点池时，选择的节点机型需为GPU规格。关于创建节点池，请参见创建节点池。关于可选的GPU ECS规格，请...

常见问题旧版索引

使用Terway网络的ENI模式出现网络异常 Terway网络场景中交换机的IP资源不足 ACK集群中SLB实例的具体用途集群管理容器服务ACK集群故障排查添加Kubernetes集群节点的常见问题删除Kubernetes集群失败通过CloudShell管理集群出现超时问题 ...

GPU FAQ

排查GPU监控常见问题可用的GPU数目少于实际GPU数目 GPU节点中重启Kubelet和Docker服务异常修复GPU实例重启或被置换后设备ID变更问题阿里云容器服务是否支持GPU虚拟化型（vGPU）实例？如何在已有集群的GPU节点上手动升级Kernel？修复GPU...

功能特性

GPU容器虚拟化方案eGPU 针对AI作业规模庞大、GPU硬件资源昂贵、集群GPU利用率低等业务场景实际遇到的问题，灵骏支持GPU虚拟化技术eGPU，可有效提升AI集群的GPU利用率，具体如下：支持显存、算力双维度自由切分。支持多个规格。支持动态创建...

Databricks Runtime

适用于启用GPU的集群的GPU库。与平台的其他组件集成的Databricks服务，例如笔记本，作业和集群管理器。Runtime 版本控制 Databricks Runtime 版本会定期发布：主要版本以小数点之前的版本号递增表示（例如，从3.5跳到4.0）。当发生重大...

容器服务报警管理

报警配置功能提供统一管理容器报警场景的功能，包括容器服务异常事件报警、集群相关基础资源的关键指标报警、集群核心组件及集群中应用的指标报警。支持在创建集群时默认开启报警功能。容器服务的报警规则支持通过集群内部署CRD的方式配置...

将报警配置功能接入注册集群

event eviction-event sls.app.ack.eviction 集群GPU的XID错误事件集群中GPU XID异常事件。event gpu-xid-error sls.app.ack.gpu.xid_error 集群节点下线集群中节点下线。event node-down sls.app.ack.node.down 集群节点重启集群中节点...

注册CDH或CDP集群至DataWorks

背景信息 CDH是Cloudera的开源平台发行版，提供开箱即用的集群管理、集群监控、集群诊断等功能，并支持使用多种组件，助力您执行端到端的大数据工作流程。CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建...

Arena在多用户场景下的最佳实践

根据目标四中的描述，本文示例按照组划分当前集群的GPU、CPU、MEM等资源。示例假设划分的配置如数据配置表所示。本文示例将分配组dev1一张GPU卡，不划分CPU和MEM，即可以使用整个集群的CPU和MEM。分配组dev2两张GPU卡，八核CPU和60 GiB...

节点与节点池FAQ

如何在已有集群的GPU节点上手动升级Kernel？修复GPU节点容器启动问题添加Kubernetes集群节点的常见问题移除节点时提示”drain-node job execute timeout”错误 ACK集群中kubelet目录路径是什么？支持自定义吗？如何更换节点池OS镜像？...

异构计算产品最佳实践概览

GPU AI模型训练最佳实践适用于AI图片训练场景，使用CPFS/NAS作为共享存储，利用容器服务Kubernetes版管理GPU云服务器集群进行AI图片训练。在GPU实例上使用RAPIDS加速机器学习任务在GPU实例上基于NGC环境使用RAPIDS加速库，加速数据科学和...

异构计算集群概述

更多信息，请参见创建GPU集群 和创建专有GPU集群。支持以GPU卡为单位申请集群GPU资源。支持自动扩缩容集群GPU节点。更多信息，请参见基于GPU指标实现弹性伸缩。支持GPU共享调度和算力隔离功能。阿里云自研的GPU共享调度将多个模型推理...

安装GPU拓扑感知调度组件

前提条件已创建ACK Pro集群，且集群的实例规格类型选择为 GPU云服务器。更多信息，请参见创建Kubernetes托管版集群。获取集群KubeConfig并通过kubectl工具连接集群。系统组件版本满足以下要求。组件版本要求 Kubernetes 1.18.8及以上...

使用阿里云Prometheus监控集群GPU资源

前提条件您已完成以下操作：创建GPU集群 或创建专有GPU集群。开通阿里云Prometheus服务。已安装阿里云Prometheus监控。具体操作，请参见阿里云Prometheus监控。费用说明在ACK集群中使用 ack-gpu-exporter 组件时，默认情况下它产生的...

Tesla或GRID驱动安装指引

GPU实例本身并未配备相关驱动，只有安装了驱动的GPU实例，才能实现计算加速或图形渲染等功能。根据不同GPU实例规格安装与之匹配的Tesla或GRID驱动，...如果GPU实例安装驱动后，在使用过程中遇到黑屏或其他问题，请参见 GPU云服务器常见问题。

GPU监控

请确保您已在云服务器ECS上安装云监控插件。具体操作，请参见安装云监控插件。监控项说明您可以从GPU、实例和应用分组维度查看GPU相关监控项。GPU的监控项如下表所示。监控项单位 MetricName Dimensions（Agent）GPU维度解码器使用率%...

监控集群GPU资源最佳实践

本文介绍如何使用GPU监控2.0监控ACK集群中的GPU资源。前提条件已创建Kubernetes集群（ACK专有版集群、ACK集群基础版、ACK集群Pro版或 ACK Edge集群），本文以 ACK集群Pro版为例。已安装GPU监控2.0相关组件。具体操作，请参见开启集群...

ACK集群实现GPU AI模型训练

场景描述本方案适用于AI图片训练场景，使用CPFS和NAS作为共享存储，利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。解决问题搭建AI图片训练基础环境。使用CPFS存储训练数据。使用飞天AI加速训练工具加速训练。使用Arena一...

安装共享GPU调度组件

ACK Pro集群的实例规格架构设置为 GPU云服务器。其他配置，请参见创建ACK集群Pro版。已获取集群KubeConfig并通过kubectl工具连接集群。使用限制请勿将共享GPU调度的节点的CPU Policy设置为 static。cGPU服务的隔离功能不支持以UVM的方式...

ACK灵骏集群计费说明

云产品名称开通类型产品说明是否支持包年包月是否支持资源包计费说明 ECS云服务器必选项用于为ACK集群创建节点。更多信息，请参见什么是云服务器ECS。不支持不支持计费概述 VPC专有网络必选项用于构建集群网络环境和路由规则。...

阿里云异构计算产品总览

作为阿里云弹性计算家族的一员，GPU云服务器结合了GPU计算力与CPU计算力，同时实现GPU计算资源的即开即用和弹性伸缩。满足您在人工智能、高性能计算、专业图形图像处理等场景中的需求。更多信息，请参见什么是GPU云服务器。神行工具包...

多可用区部署架构

PolarDB MySQL版支持创建多可用区的集群。相比单可用区集群，多可用区集群具备更高的容灾能力，可以抵御机房级别的故障。本文将为您介绍如何实施多可用区部署以及如何更换主可用区。前提条件集群所在的地域需要 PolarDB 在两个及以上的...

安装CUDA

如果您想要在GPU云服务器上进行GPU加速计算任务（例如科学计算或大规模并行计算等），则需要安装CUDA开发运行环境。CUDA提供了一整套工具和库，可以帮助您进行GPU加速的程序开发，以充分发挥NVIDIA GPU的计算潜力，提高计算性能和加速运行...

命令行使用说明

您可以通过FastGPU的命令行，快速地部署云上GPU集群，管理资源的生命周期。还可以便捷地为集群安装深度学习环境，在集群运行代码，查看运行日志以及释放资源。前提条件客户端已安装Python 3.6或以上版本。说明您的ECS实例、本地机器、...

重启实例

GPU实例作为云服务器ECS的一类实例规格，保持了与ECS实例相同的管理操作。本文介绍如何通过控制台重启实例。前提条件待重启的实例必须处于运行中状态。背景信息重启操作是维护云服务器的一种常用方式，如系统更新、重启保存相关配置等...

什么是GPU云服务器

对比项 GPU云服务器 GPU自建服务器 灵活性能够快速开通一台或多台GPU云服务器实例。实例规格（vCPU、内存及GPU）支持灵活变更，并且支持在线升降配。带宽升降自由。服务器购买周期长。服务器规格固定，无法灵活变更。带宽一次性购买，无法...

GPU集群干啥用的

新品推荐