GPU云服务器服务-GPU云服务器服务文档介绍内容-阿里云

GPU计算型和GPU虚拟化型实例概述

本文介绍云服务器ECS GPU计算型和GPU虚拟化型实例规格族的特点，并列出了具体的实例规格。推荐 GPU虚拟化型实例规格族sgn7i-vws（共享CPU）GPU虚拟化型实例规格族vgn7i-vws GPU计算型实例规格族gn7e GPU计算型实例规格族gn7i GPU计算型实例...

在GPU实例（计算型和虚拟化型）中安装GRID驱动...

在OpenGL、Direct3D、云游戏等图形加速/图形渲染场景下，安装了GRID驱动的GPU可有效提高图形渲染效率和性能。本文为您介绍通过云助手方式在GPU实例（计算型和虚拟化型）中安装GRID驱动（Windows）的方法。说明创建GPU实例时会默认预装云...

在GPU虚拟化型实例中安装GRID驱动（Linux）

在AI等通用计算业务场景或者OpenGL、Direct3D、云游戏等图形加速场景下，安装了GRID驱动的GPU可有效发挥高性能计算能力，或提供更流畅的图形显示效果。本文为您介绍通过云助手快速安装GRID驱动的方法。说明使用云助手安装GRID驱动前，建议...

在GPU计算型实例中安装Tesla驱动（Linux）

在深度学习、AI等通用计算业务场景或者OpenGL、Direct3D、云游戏等图形加速场景下，安装了Tesla驱动的GPU才可以发挥高性能计算能力，或提供更流畅的图形显示效果。如果您在创建GPU计算型实例（Linux）时未同时安装Tesla驱动，则需要在创建...

已停售的GPU实例规格

vCPU 内存（GiB）GPU GPU显存（GB）网络带宽（Gbit/s）网络收发包PPS RoCE网络（Gbit/s）多队列弹性网卡单网卡私有IP ecs.sccgn6e.24xlarge 96 768.0 NVIDIA V100*8 32GB*8 32 480万 50 8 32 10 GPU计算型超级计算集群实例规格族sccgn6 ...

功能发布记录

2019-03-19 全部实例规格族 2018年9月功能名称功能描述发布时间发布地域相关文档实例规格族最新一代GPU云主机gn6v（V100机型）正式售卖。2018-09-12 全部实例规格族 2018年3月功能名称功能描述发布时间发布地域相关文档 GPU...

安装并使用Deepnccl

Deepnccl是为阿里云神龙异构产品开发的用于多GPU互联的AI通信加速库，能够无感地加速基于NCCL通信算子调用的分布式训练或多卡推理等任务。本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用Deepnccl的操作方法。前提条件已创建...

卸载GRID驱动

警告 GPU实例必须配备了相关驱动才可以正常使用，如果您因某种原因需要卸载当前驱动，请务必再安装与您实例规格及操作系统相匹配的正确驱动，否则会因GPU实例与安装的驱动不匹配而造成业务无法正常进行的风险。在Windows操作系统中卸载GRID...

安装和使用AIACC-AGSpeed

AIACC-AGSpeed（简称AGSpeed）专注于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能，相比原始的神龙AI加速引擎AIACC，可以实现无感的计算优化性能。本文为您介绍安装和使用AGSpeed的方法。前提条件已创建阿里云GPU实例，且...

from tensorflow.keras import backend as K K.set_session(tf.Session(config=config))对于TensorFlow 2.x版本：gpus=tf.config.experimental.list_physical_devices('GPU')for gpu in gpus:tf.config.experimental.set_memory_growth(gpu...

什么是集群极速部署工具FastGPU

FastGPU介绍 FastGPU作为衔接您的线下人工智能算法和线上阿里云海量GPU计算资源的关键一环，方便您将人工智能计算任务构建在阿里云的IaaS资源上。使用FastGPU构建人工智能计算任务时，您无需关心IaaS层的计算、存储、网络等资源部署操作，...

应用场景

推荐搭配使用：云服务器 ECS／GPU 服务器 EGS／高性能计算服务（Alibaba Cloud HPC）+容器服务+对象存储 OSS／文件存储 NAS／CPFS 相关文档：PyTorch分布式训练 TensorFlow分布式训练微服务架构实现敏捷开发和部署落地，加速企业业务迭代...

AIGC文本生成视频

本文介绍如何使用GPU云服务器搭建Stable Diffusion模型，并基于ModelScope框架，实现使用文本生成视频。背景信息自多态模型GPT-4发布后，AIGC（AI Generated Content，AI生成内容）时代正扑面而来，从单一的文字文本，演化到更丰富的图片...

使用AIACC-Training MXNet版

bin/sh let GPU=OMPI_COMM_WORLD_RANK%OMPI_COMM_WORLD_LOCAL_SIZE export OMP_NUM_THREADS=4 MXNET_VISIBLE_DEVICE=$GPU python train_imagenet.py \-network resnet \-num-layers 50 \-kv-store dist_sync_perseus \-gpus$GPU…执行如下...

AIACC-Training常见问题

本章节汇总了使用AIACC-Training时的常见问题。...启动环节异常慢，查看系统的线程数非常多，有大量omp相关的线程一般情况下，单GPU分配4个以内的omp线程是合适的，设置 export OMP_NUM_THREADS=4 或者更低可以解决此类问题。

什么是计算优化编译器AIACC-AGSpeed

AIACC-AGSpeed（AIACC 2.0-AIACC Graph Speeding）是阿里云推出的一个基于PyTorch深度学习框架研发的计算优化编译器，用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能，相比原始的神龙AI加速引擎AIACC，AIACC-AGSpeed是...

AIACC-ACSpeed体验示例

AIACC-ACSpeed（简称ACSpeed）作为阿里云自研的AI训练加速器，在提高训练效率的同时能够降低使用成本，可以实现无感的分布式通信性能优化。ACSpeed软件包中已为您提供了适配DDP的示例代码，您可以参考本文快速体验使用ACSpeed进行模型分布...

AIACC-ACSpeed性能数据

测试版本 ACSpeed版本：1.0.2 Cuda版本：11.1 torch版本：1.8.1+cu111 实例类型：某8卡GPU实例训练性能效果本文以AIACC-ACSpeed（简称ACSpeed）v1.0.2版本在阿里云某8卡机器上的多机性能数据为例，通过测试不同场景下的模型，展示ACSpeed...

ECS实例如何升级GPU驱动

概述本文主要介绍如何升级ECS实例的GPU驱动。详细信息阿里云提醒您：如果您对实例或数据有修改、变更等风险操作，务必注意实例的容灾、容错能力，确保数据安全。如果您对实例（包括但不限于ECS、RDS）等进行配置与数据...适用于 云服务器ECS

地域和可用区

本文介绍阿里云地域和可用区的概念、选择指导、两者的关系以及阿里云支持的地域和可用区列表。地域概念地域指数据中心所在的地理区域，通常按照数据中心所在的城市划分。例如，华北1（青岛）地域表示数据中心所在的城市是青岛。如何选择...

安装并使用DeepGPU-LLM

在处理大语言模型任务中，您可以根据实际业务部署情况，选择在不同环境（例如GPU云服务器环境或Docker环境）下安装推理引擎DeepGPU-LLM，然后通过使用DeepGPU-LLM工具实现大语言模型（例如Llama模型、ChatGLM模型、百川Baichuan模型或通义...

GPU计算型

计算：处理器：3.0 GHz主频的Ampere ® Altra ® Max处理器，原生ARM计算平台为Android服务器提供高效的性能和优秀的App兼容性存储：仅支持ESSD云盘和ESSD AutoPL云盘网络：支持IPv4、IPv6 适用场景：基于Android提供APP远端服务，例如云...

【公告】vgn5i和vgn6i停售通知

尊敬的阿里云用户，阿里云将于2023年11月1日起停止售卖vgn5i和vgn6i产品，且2024年2月1日后该产品将全面关闭（即存量实例会被强制关机下线），为了您的业务不受产品关闭影响，建议您尽快将目前使用的vgn5i和vgn6i升配为vgn6i-vws、sgn7i-...

在GPU实例上使用RAPIDS加速图像搜索任务

本文以使用RAPIDS加速图像搜索任务为例，介绍如何在预装镜像的GPU实例上使用RAPIDS加速库。前提条件使用本教程进行操作前，请确保您已经注册了阿里云账号。如还未注册，请先完成账号注册。背景信息 RAPIDS（全称Real-time Acceleration ...

什么是AI分布式训练通信优化库AIACC-ACSpeed

上图中，GPU0~GPU3或者GPU4~GPU7的各卡之间相互通过PCIe Bridge连接（PIX），而GPU0到GPU4~GPU7、GPU1到GPU4~GPU7、GPU2到GPU4~GPU7、GPU3到GPU4~GPU7之间需要通过socket之间的QPI/UPI接口连接（SYS）。优化方法在原生NCCL通信库中，默认...

安装和使用AIACC-ACSpeed

前提条件已创建阿里云GPU实例，且GPU实例需满足以下要求：操作系统为Alibaba Cloud Linux、CentOS 7.x、Ubuntu 16.04或以上版本。已安装NVIDIA Driver和CUDA 10.0或以上版本。支持的版本列表 AIACC-ACSpeed（本文简称ACSpeed）v1.1.0支持...

安装和使用Deepytorch Training

Deepytorch Training是阿里云自研的AI加速器，面向生成式AI和大模型场景，提供了显著的训练加速能力。本文主要介绍安装并使用Deepytorch Training的操作方法。前提条件已创建阿里云GPU实例，且GPU实例需满足以下要求：操作系统为Alibaba ...

接入Nvidia GPU监控数据

Nvidia GPU服务器中提供多项监控指标，您可以将Nvidia GPU服务器中的监控指标接入到全栈可观测应用中，进行可视化展示。前提条件已创建实例。具体操作，请参见创建实例。步骤一：安装NVIDIA GPU驱动日志服务使用 nvidia-smi 命令采集...

什么是推理引擎DeepGPU-LLM

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型（Large Language Model，LLM）推理引擎，在处理大语言模型任务中，该推理引擎可以为您提供高性能的大模型推理服务。产品简介 DeepGPU-LLM作为阿里云开发的一套推理引擎，具有易用性...

Serverless GPU概述

Serverless GPU是一种新兴的云计算GPU服务，它采用了服务器无感知计算的理念，通过提供一种按需分配的GPU计算资源，有效地解决原有GPU长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。本文介绍Serverless GPU的详细...

Serverless GPU概述

Serverless GPU是一种新兴的云计算GPU服务，它采用了服务器无感知计算的理念，通过提供一种按需分配的GPU计算资源，有效地解决原有GPU长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。本文介绍Serverless GPU的详细...

从0快速搭建个人版“对话大模型”

本教程介绍如何在阿里云GPU云服务器上基于 Alpaca大模型快速搭建个人版“对话大模型”。背景信息 Alpaca大模型是一款基于LLaMA的大语言模型，它可以模拟自然语言进行对话交互，并协助用户完成写作、翻译、编写代码、生成脚本等一系列创作...

安装AIACC-Training

前提条件已创建阿里云GPU实例，且GPU实例需满足以下要求：操作系统为Alibaba Cloud Linux、CentOS 7.x或Ubuntu 16.04以上版本。已安装NVIDIA Driver和CUDA 10.0或以上版本。背景信息本文以安装AIACC-Training 1.5.0版本为例，您可以根据...

安装和使用Deepytorch Inference

Deepytorch Inference是阿里云自研的AI推理加速器，针对Torch模型，可提供显著的推理加速能力。本文主要介绍安装并使用Deepytorch Inference的操作方法，以及推理效果展示。背景信息 Deepytorch Inference通过调用 deepytorch_inference....

常用操作导航

GPU实例作为云服务器ECS的一类实例规格，保持了与ECS实例相同的操作方式。在使用云服务器ECS时，您可能会遇到各种问题，例如远程连接、更换操作系统、扩容云盘、升高或降低实例配置、使用快照或镜像等。本文介绍了云服务器ECS的常用操作，...

通过密码或密钥认证登录Windows实例

说明不支持在控制台为Windows实例绑定密钥对，如需通过密钥认证登录Windows实例，您可以自行在实例内部开启SSHD的远程服务并配置密钥，例如Windows系统中的Cygwin SSHD服务或WinSSHD服务。关于Windows如何开启SSHD服务的具体操作，请参见 ...

通过密码或密钥认证登录Linux实例

并触发云助手调用 InvokeCommand，执行名称为 ACS-ECS-EnableSshPublicKey-linux.sh 和 ACS-ECS-SendSshPublicKey-linux.sh 的公共命令，将公钥发送给目标实例，交于实例中运行的云助手Agent管理。Workbench通过临时密钥对成功登录实例。在...

PAI-TF概述

警告公共云GPU服务器即将过保下线，您可以继续提交CPU版本的TensorFlow任务。如需使用GPU进行模型训练，请前往DLC提交任务，具体操作请参见创建训练任务。背景 TensorFlow是Google最新的开源深度学习计算框架，支持CNN、RNN及LSTM等多种...

休眠实例

GPU实例作为云服务器ECS的一类实例规格，保持了与ECS实例相同的管理操作。如果您在某个时间段内无需运行ECS实例，也不会执行某些操作（如升降配等），建议您休眠ECS实例。相比停止实例，休眠实例后再次启动实例，ECS实例会自动恢复至休眠前...

使用限制

GPU实例作为云服务器ECS的一类实例规格，保持了与ECS实例相同的使用限制。本文介绍云服务器ECS在产品功能和服务性能上的不同限制，以及如何申请更高配额。限制概述使用云服务器ECS有下列限制：仅弹性裸金属服务器和超级计算集群支持二次...

GPU云服务器服务

新品推荐