GPU集群中加速AI模型训练

本文适用于AI图片的训练场景,使用文件存储CPFS/NAS作为共享存储,使用容器服务Kubernetes版管理GPU云服务器集群实现AI图片的训练加速。方案优势 使用阿里的容器服务ACK可快速搭建AI图片训练基础环境。使用CPFS存储训练数据,支持多个...

ACK集群实现GPU AI模型训练

场景描述 本方案适用于AI图片训练场景,使用CPFS和NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。解决问题 搭建AI图片训练基础环境。使用CPFS存储训练数据。使用飞天AI加速训练工具加速训练。使用Arena一...

异构计算产品最佳实践概览

GPU AI模型训练最佳实践 适用于AI图片训练场景,使用CPFS/NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行AI图片训练。在GPU实例上使用RAPIDS加速机器学习任务 在GPU实例上基于NGC环境使用RAPIDS加速库,加速数据科学和...

API参考

如果您熟悉网络服务协议和一种以上编程语言,推荐您调用API管理您的上资源和开发自己的应用程序。GPU云服务器适用的API和云服务器ECS一致,详情请参见 ECS API简介 和 ECS API概览。

使用RAPIDS加速机器学习最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速机器学习环境。使用容器服务Kubernetes版部署RAPIDS加速机器学习环境。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务器 该...

使用RAPIDS加速图像搜索最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速图像搜索环境。使用容器服务Kubernetes版可快速部署图像搜索环境和分发应用。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务...

GPU云服务器计费

GPU云服务器计费相关功能与云服务器ECS一致,本文为您介绍GPU云服务器涉及的计费项、计费方式、续费和退费说明等。计费项及其计费方式 一台GPU实例包括计算资源(vCPU、内存和GPU)、镜像、块存储等资源,其中涉及计费的GPU资源如下表所示...

使用ACK服务实现GPU的成本优化

利用阿里容器服务ACK部署GPU集群后,出于成本优化考虑,针对集群中GPU利用率不同的应用,选择不同的成本优化方案,可以实现集群的灵活管理,同时整体降低成本。例如,对于集群中GPU利用率不高的应用(例如推理应用),建议选择cGPU技术将...

创建GPU集群

容器服务 Kubernetes 版支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。本文介绍如何创建GPU集群及查看节点挂载的GPU设备。前提条件 已创建ACK Pro版集群 或 已创建ACK专有版集群。创建GPU节点...

什么是推理引擎DeepGPU-LLM

DeepGPU-LLM是阿里研发的基于GPU云服务器的大语言模型(Large Language Model,LLM)推理引擎,在处理大语言模型任务中,该推理引擎可以为您提供高性能的大模型推理服务。产品简介 DeepGPU-LLM作为阿里开发的一套推理引擎,具有易用性...

使用FastGPU加速AI训练/推理

选用的产品列表 产品名称 说明 GPU云服务器 该服务提供了GPU算力的弹性计算服务,具有超强的计算能力,可有效缓解计算压力,提升您的业务效率,帮助您提高企业竞争力。对象存储OSS 是一款海量、安全、低成本、高可靠的存储服务,多种存储...

开启集群GPU监控

前提条件 已创建托管GPU集群或专有GPU集群。具体操作,请参见 创建GPU集群 或 创建专有GPU集群。已开通ARMS。具体操作,请参见 开通ARMS。背景信息 对运维人员来说,实现对Kubernetes的大规模GPU设备可监测能力至关重要。通过监测GPU相关...

安装共享GPU调度组件

ACK Pro集群的实例规格架构设置为 GPU云服务器。其他配置,请参见 创建ACK集群Pro版。已获取集群KubeConfig并通过kubectl工具连接集群。使用限制 请勿将共享GPU调度的节点的CPU Policy设置为 static。cGPU服务的隔离功能不支持以UVM的方式...

Tesla或GRID驱动安装指引

GPU实例本身并未配备相关驱动,只有安装了驱动的GPU实例,才能实现计算加速或图形渲染等功能。根据不同GPU实例规格安装与之匹配的Tesla或GRID驱动,...如果GPU实例安装驱动后,在使用过程中遇到黑屏或其他问题,请参见 GPU云服务器常见问题。

阿里异构计算产品总览

GPU云服务器 GPU云服务器是基于GPU应用的计算服务器GPU在执行复杂的数学和几何计算方面有着独特的优势。特别是浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。作为阿里弹性计算家族的一员,GPU云服务器结合了GPU计算力...

使用阿里Prometheus监控集群GPU资源

前提条件 您已完成以下操作:创建GPU集群 或 创建专有GPU集群。开通 阿里Prometheus服务。已安装阿里Prometheus监控。具体操作,请参见 阿里Prometheus监控。费用说明 在ACK集群中使用 ack-gpu-exporter 组件时,默认情况下它产生的...

安装CUDA

如果您想要在GPU云服务器上进行GPU加速计算任务(例如科学计算或大规模并行计算等),则需要安装CUDA开发运行环境。CUDA提供了一整套工具和库,可以帮助您进行GPU加速的程序开发,以充分发挥NVIDIA GPU的计算潜力,提高计算性能和加速运行...

产品优势

高可用性 E-HPC集群节点基于云服务器ECS、超级计算集群SCC和GPU云服务器组建,大大提高了集群的可用性。结果可视 E-HPC提供可视化服务功能,您可以通过可视化服务功能将计算结果转换为可读的图形化数据。例如您可以直接观看渲染后的动画...

PAI-TF概述

MaxCompute全局计算调度服务能够将PAI-TF作业自动调度至相应的GPU集群,并将基于CPU集群的数据预处理作业和基于GPU集群的模型训练作业连接起来。GPU卡映射 PAI-TF支持将不同算子(Operators)指定至特定的CPU或GPU上。基于GPU卡映射,您...

集群报警差异化配置

如下示例中,ack-cluster-1 为CPU集群,ack-cluster-2 为GPU集群,该示例可实现对 ack-cluster-2 即GPU集群的差异化配置,包括开启GPU报警、修改报警阈值和告警联系人。apiVersion:core.oam.dev/v1alpha1#定义分发目标集群,使用Cluster ID...

使用原生AI监控大盘

节点监控大盘有以下可供您查看的指标:GPU Node Details:以表格的形式展示集群节点的相关信息,包括:节点名称(Name)节点在集群中的IP(IP)节点在集群中的角色(Role)节点的状态(Status)GPU模式:独占或共享(GPU Mode)节点拥有GPU...

监控集群GPU资源最佳实践

前提条件 已创建Kubernetes集群(ACK专有版集群、ACK集群基础版、ACK集群Pro版 或 ACK Edge集群),本文以 ACK集群Pro版 为例。已安装GPU监控2.0相关组件。具体操作,请参见 开启集群GPU监控。背景信息 GPU监控2.0支持对集群GPU节点进行全...

接入NVIDIA GPU监控数据

集群名称 自定义设置Nvidia GPU集群的名称。设置该参数后,日志服务会为通过该Logtail采集配置采集到的Nvidia GPU监控数据添加 cluster=集群名称 的标签。重要 请确保该集群名称唯一,否则可能出现数据冲突。nvidia-smi路径 安装nvidia-smi...

接入Nvidia GPU监控数据

集群名称 自定义设置Nvidia GPU集群的名称。设置该参数后,日志服务会为通过该Logtail采集配置采集到的Nvidia GPU监控数据添加 cluster=集群名称 的标签。重要 请确保该集群名称唯一,否则可能出现数据冲突。nvidia-smi路径 安装nvidia-smi...

ACK专有版集群迁移至ACK集群Pro版后升级共享GPU组件

ACK专有版集群 安装的共享GPU组件在 ACK集群Pro版 中无法正常使用,需在 ACK集群Pro版 中升级相关组件,以实现GPU的调度和隔离。本文介绍如何在 ACK集群Pro版 中升级共享GPU组件。前提条件 已将 ACK专有版集群 迁移至 ACK集群Pro版 中,且...

阿里Elasticsearch实例FAQ

集群状态指标数值分别表示什么意思?如何查看ES的磁盘使用情况?CMS GC时报错promotion failed,如何处理?访问集群问题 如何使用客户端连接阿里ES集群,与开源ES有什么区别?通过客户端访问ES实例时,可以关闭Basic Auth(安全认证)吗...

基于GPU指标实现弹性伸缩

前提条件 您已 创建GPU集群 或已 创建专有GPU集群。功能介绍 在高性能计算领域,例如深度学习模型训练、推理等场景,通常需要使用GPU来做计算加速。为了节省成本,您可以根据GPU指标(利用率、显存)来进行弹性伸缩。Kubernetes默认提供CPU...

基于GPU指标实现弹性伸缩

前提条件 您已 创建GPU集群 或已 创建专有GPU集群。功能介绍 在高性能计算领域,例如深度学习模型训练、推理等场景,通常需要使用GPU来做计算加速。为了节省成本,您可以根据GPU指标(利用率、显存)来进行弹性伸缩。Kubernetes默认提供CPU...

常见问题FAQ

基本问题 Q:数据库专属集群MyBase 是什么意思?它和RDS数据库的区别是什么?A:数据库专属集群MyBase 是由多台主机(底层服务器,如ECS I2服务器、神龙服务器)组成的集群,详情请参见 常见术语。相比直接使用RDS 或Redis 实例,专属...

功能特性

GPU容器虚拟化方案eGPU 针对AI作业规模庞大、GPU硬件资源昂贵、集群GPU利用率低等业务场景实际遇到的问题,灵骏支持GPU虚拟化技术eGPU,可有效提升AI集群GPU利用率,具体如下:支持显存、算力双维度自由切分。支持多个规格。支持动态创建...

将报警配置功能接入注册集群

event eviction-event sls.app.ack.eviction 集群GPU的XID错误事件 集群GPU XID异常事件。event gpu-xid-error sls.app.ack.gpu.xid_error 集群节点下线 集群中节点下线。event node-down sls.app.ack.node.down 集群节点重启 集群中节点...

容器服务报警管理

报警配置功能提供统一管理容器报警场景的功能,包括容器服务异常事件报警、集群相关基础资源的关键指标报警、集群核心组件及集群中应用的指标报警。支持在创建集群时默认开启报警功能。容器服务的报警规则支持通过集群内部署CRD的方式配置...

阿里Prometheus监控

您可以通过阿里Prometheus监控查看 ACK Serverless集群 预先配置的监控大盘和监控性能指标。本文介绍如何在ACK Serverless中接入阿里Prometheus监控、如何配置Prometheus监控报警和自定义Prometheus监控指标,并通过Grafana展示。阿里...

ack-arms-prometheus

ack-arms-prometheus组件是 阿里Prometheus 在ACK集群中的监控组件。本文介绍ack-arms-prometheus组件信息、使用说明和变更记录。组件介绍 ack-arms-prometheus是阿里容器服务Kubernetes版提供对接 阿里Prometheus 的监控组件。当在...

Helm版本说明

2020年 展开折叠面板查看2020年组件变更记录 Helm版本号 Agent镜像版本号 功能概述 发布时间 变更影响 v0.1.5 arms-prom-operator:v0.1 支持阿里容器服务Kubernetes版v1.18集群。支持镜像Region从内网地址拉取。2020年10月 此次升级不会...

Helm版本说明

2020年 展开折叠面板查看2020年组件变更记录 Helm版本号 Agent镜像版本号 功能概述 发布时间 变更影响 v0.1.5 arms-prom-operator:v0.1 支持阿里容器服务Kubernetes版v1.18集群。支持镜像Region从内网地址拉取。2020年10月 此次升级不会...

任务列表

概述 为了便于用户管理 PolarDB 集群的任务,及时感知集群备份恢复等长时任务的进度,提高集群运维效率,PolarDB 支持在 任务列表 查看当前任务进度和历史任务详情。版本要求 当前任务列表仅支持管理 PolarDB MySQL版 企业版 和标准版 集群...

应用场景

GPU云服务器应用场景 直播实时视频转码 阿里云GPU云服务器重点支持2019年天猫双11狂欢夜直播的实时视频转码,以高画质、低带宽、高分辨率、实时的综合优势服务于天猫双11狂欢夜当天直播业务4K、2K、1080P等各个分辨率的转码。具体说明如下...

什么GPU云服务器

对比项 GPU云服务器 GPU自建服务器 灵活性 能够快速开通一台或多台GPU云服务器实例。实例规格(vCPU、内存及GPU)支持灵活变更,并且支持在线升降配。带宽升降自由。服务器购买周期长。服务器规格固定,无法灵活变更。带宽一次性购买,无法...

异构计算集群概述

更多信息,请参见 创建GPU集群 和 创建专有GPU集群。支持以GPU卡为单位申请集群GPU资源。支持自动扩缩容集群GPU节点。更多信息,请参见 基于GPU指标实现弹性伸缩。支持GPU共享调度和算力隔离功能。阿里自研的GPU共享调度将多个模型推理...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
GPU云服务器 云数据库专属集群 云原生数据仓库AnalyticDB MySQL版 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用