不花钱的GPU服务器-不花钱的GPU服务器文档介绍内容-阿里云

云速搭部署GPU云服务器

通过云速搭实现GPU云服务器的部署，这里使用 ECS 的 UserData 特性自动安装GPU 驱动、AIACC 等组件，减少配置工作量。涉及产品专有网络VPC GPU云服务器 弹性公网IP 云速搭CADT 方案架构操作步骤具体操作步骤请参考《云速搭部署 GPU ...

应用场景

GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作站等场景，神行工具包（DeepGPU）为了配合GPU云服务器的计算服务增强能力，也适用于所有AI训练场景和AI推理场景。本文主要介绍GPU云服务器和神行工具包（DeepGPU）的...

什么是推理引擎DeepGPU-LLM

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型（Large Language Model，LLM）推理引擎，在处理大语言模型任务中，该推理引擎可以为您提供高性能的大模型推理服务。产品简介 DeepGPU-LLM作为阿里云开发的一套推理引擎，具有易用性...

API参考

如果您熟悉网络服务协议和一种以上编程语言，推荐您调用API管理您的云上资源和开发自己的应用程序。GPU云服务器适用的API和云服务器ECS一致，详情请参见 ECS API简介和 ECS API概览。

使用RAPIDS加速机器学习最佳实践

方案优势阿里云GPU云服务器资源丰富，可灵活选择在GPU上搭建RAPIDS加速机器学习环境。使用容器服务Kubernetes版部署RAPIDS加速机器学习环境。共享存储NAS可提供强大的存储性能。部署架构图选用的产品列表产品名称说明 GPU云服务器 该...

使用RAPIDS加速图像搜索最佳实践

方案优势阿里云GPU云服务器资源丰富，可灵活选择在GPU上搭建RAPIDS加速图像搜索环境。使用容器服务Kubernetes版可快速部署图像搜索环境和分发应用。共享存储NAS可提供强大的存储性能。部署架构图选用的产品列表产品名称说明 GPU云服务...

远程连接FAQ

本文介绍在远程连接轻量应用服务器过程中可能存在的问题、排查思路和相应的解决方案。排查思路如果无法远程连接轻量应用服务器时，阿里云推荐您按照以下思路排查问题。以下排查思路根据原因的出现概率进行排序，建议您从高频率原因往低...

sccgn系列实例使用说明及验证

为进一步优化神龙架构GPU服务器的网络性能，阿里云推出了GPU计算型超级计算集群实例规格族，即sccgn系列实例，该系列机型具备了超强的计算能力和网络通信能力。本文为您介绍sccgn系列实例的使用说明及性能验证。使用说明 sccgn系列机型同时...

在GPU集群中加速AI模型训练

本文适用于AI图片的训练场景，使用文件存储CPFS/NAS作为共享存储，使用容器服务Kubernetes版管理GPU云服务器集群实现AI图片的训练加速。方案优势使用阿里云的容器服务ACK可快速搭建AI图片训练基础环境。使用CPFS存储训练数据，支持多个...

GPU监控

请确保您已在云服务器ECS上安装云监控插件。具体操作，请参见安装云监控插件。监控项说明您可以从GPU、实例和应用分组维度查看GPU相关监控项。GPU的监控项如下表所示。监控项单位 MetricName Dimensions（Agent）GPU维度解码器使用率%...

部署GPU云服务器

请按照标签顺序依次点击新建>新建空白应用，构建如下图所示的包含GPU云服务器实例的应用架构：本文所选地域为华北2（北京）可用区H。双击GPU实例，配置相关参数。参考创建GPU实例，选择对应的实例规格、镜像及版本。需要修改自定义登录...

安装客户端

使用默认命令云安全中心为阿里云服务器和云外主机提供了默认安装命令，您可以按照服务器操作系统类型复制对应的默认安装命令，使用管理员账号在服务器中执行该命令安装客户端。说明使用默认安装命令安装的服务器分组为未分组，您可以在...

产品优势

阿里云GPU云服务器具有广阔的覆盖范围、超强的计算能力、出色的网络性能和灵活的购买方式，神行工具包（DeepGPU）是专门为GPU云服务器搭配的具有GPU计算服务增强能力的免费工具集。本文主要介绍GPU云服务器和神行工具包（DeepGPU）的优势。...

什么是GPU云服务器

对比项 GPU云服务器 GPU自建服务器 灵活性能够快速开通一台或多台GPU云服务器实例。实例规格（vCPU、内存及GPU）支持灵活变更，并且支持在线升降配。带宽升降自由。服务器购买周期长。服务器规格固定，无法灵活变更。带宽一次性购买，无法...

接入Nvidia GPU监控数据

Nvidia GPU服务器中提供多项监控指标，您可以将Nvidia GPU服务器中的监控指标接入到全栈可观测应用中，进行可视化展示。前提条件已创建实例。具体操作，请参见创建实例。步骤一：安装NVIDIA GPU驱动日志服务使用 nvidia-smi 命令采集...

安装CUDA

如果您想要在GPU云服务器上进行GPU加速计算任务（例如科学计算或大规模并行计算等），则需要安装CUDA开发运行环境。CUDA提供了一整套工具和库，可以帮助您进行GPU加速的程序开发，以充分发挥NVIDIA GPU的计算潜力，提高计算性能和加速运行...

安装GPU拓扑感知调度组件

前提条件已创建ACK Pro集群，且集群的实例规格类型选择为 GPU云服务器。更多信息，请参见创建Kubernetes托管版集群。获取集群KubeConfig并通过kubectl工具连接集群。系统组件版本满足以下要求。组件版本要求 Kubernetes 1.18.8及以上...

重启实例

GPU实例作为云服务器ECS的一类实例规格，保持了与ECS实例相同的管理操作。本文介绍如何通过控制台重启实例。前提条件待重启的实例必须处于运行中状态。背景信息重启操作是维护云服务器的一种常用方式，如系统更新、重启保存相关配置等...

阿里云异构计算产品总览

神行工具包（DeepGPU）神行工具包是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合，用户可以基于IaaS产品快速构建企业级服务能力。目前所有神行工具包中的组件都是免费搭配阿里云GPU服务器使用，帮助用户更方便、更高效地使用阿里...

常见问题

阿里云云安全中心结合阿里云云计算平台强大的数据分析能力，为您提供一站式安全服务，例如安全漏洞检测、网页木马检测、面向云服务器用户提供的主机入侵检测和防御DDoS流量攻击等。更多安全服务，请查看安全产品页面。如何检测服务器是否...

使用AIACC-Training（AIACC训练加速）加速BERT Fine...

本文适用于自然语言训练场景，例如，通过使用GPU云服务器和极速型NAS训练BERT Finetune模型，同时使用AIACC-Training（AIACC训练加速）进行该模型的训练加速，可有效加快多机多卡的训练速度，提升模型的训练效率和性能。说明 BERT...

功能特性

在ECS控制台复制轻量应用服务器共享的镜像管理内网互通管理内网互通轻量应用服务器使用阿里云自动分配的专有网络VPC（Virtual Private Cloud）进行网络隔离，默认情况下不与云服务器ECS、云数据库等其他处于专有网络VPC中的阿里云产品...

GPU自助诊断

ECS管理控制台支持配置 GPU设备健康检查功能，通过该功能可以对当前实例的GPU卡状态或驱动状态进行全方位诊断，方便您自行诊断当前实例的GPU卡或驱动是否存在异常，帮助您及时发现和解决存在的常见问题。前提条件已创建GPU实例且该实例...

自定义镜像概述

当轻量应用服务器的配置不能再满足您的业务需要、或者您期望使用云服务器ECS部署业务时，您可以通过共享镜像将业务从轻量应用服务器转移至云服务器ECS。共享自定义镜像取消共享自定义镜像当您不再需要共享自定义镜像或者需要删除自定义...

什么是GPU容器共享技术cGPU

GPU容器共享技术cGPU是阿里云基于内核虚拟GPU隔离的容器共享技术。即多个容器共享一张GPU卡，从而实现业务的安全隔离，提高GPU硬件资源的利用率并降低使用成本。为什么选择cGPU 兼容性好不仅适配标准的Docker和Containerd工作方式，而且还...

GPU监控

请确保您已在云服务器ECS上安装云监控插件。具体操作，请参见安装云监控插件。监控项说明您可以从GPU、实例和应用分组维度查看GPU相关监控项。GPU的监控项如下表所示。监控项单位 MetricName Dimensions（Agent）GPU维度解码器使用率%...

产品优势

使用EAIS实例：您只需要购买如下计算资源：产品实例规格指标数据 云服务器ECS ecs.r6.6xlarge 24 vCPU 192 GiB 弹性计算加速实例EAIS eais.ei-a6.4xlarge 16 TFLOPS/FP32，32 GB/显存综上所述，如果您购买GPU实例，则只能在已有的固定...

什么是神行工具包（DeepGPU）

神行工具包（DeepGPU）是阿里云专门为GPU云服务器搭配的GPU计算服务增强工具集合，旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力。GPU云服务器搭配神行工具包（DeepGPU）中的组件可以帮助您更方便地利用阿里云的云上GPU资源，...

使用云原生AI监控大盘

云原生AI的监控组件能够帮助您从不同的维度（比如：集群、节点、训练任务等）监控集群的GPU资源使用情况，以及集群的各命名空间下的资源配额使用情况。本文分别从集群、节点、训练任务和资源配额维度介绍监控大盘，以及介绍如何安装和使用...

异构计算产品最佳实践概览

GPU云服务器 搭建Linux环境License Server 使用GRID驱动必须申请相应的License，同时需要将License部署在License Server上，本教程以Ubuntu 18.04操作系统为例，介绍如何搭建Linux操作系统的License Server。搭建Windows环境的License ...

指定GPU规格创建实例

默认情况下，多个容器可以共享使用GPU，配置时需确保单个容器内配置的GPU个数不超过指定的GPU规格所具备的GPU个数。OpenAPI 调用CreateContainerGroup接口创建ECI实例时，在通过InstanceType参数指定ECS GPU实例规格的基础上，必须通过容器...

在轻量应用服务器控制台中不显示服务器的内存和磁盘的...

本文主要介绍在轻量应用服务器控制台中不显示服务器的内存和磁盘的使用信息的问题描述、问题原因及其解决方案。问题描述在阿里云轻量应用服务器控制台中，查看轻量应用服务器的监控信息时，不显示内存和系统盘的使用信息。问题原因在轻量...

源服务器迁移至容器镜像

背景信息重要 Windows操作系统的源服务器不支持迁移为容器镜像。Docker容器镜像服务的基础知识，具体请参见基本概念。迁移任务运行期间会创建中转实例辅助迁移。中转实例会产生少量的费用，关于计费的详细信息，请参见按量付费。当迁移...

指定GPU规格创建Pod

默认情况下，多个容器可以共享使用GPU，配置时需确保单个容器内配置的GPU个数不超过指定的GPU规格所具备的GPU个数。配置示例如下：apiVersion:apps/v1 kind:Deployment metadata:name:test labels:app:test spec:replicas:2 selector:...

指定GPU规格创建Pod

默认情况下，多个容器可以共享使用GPU，配置时需确保单个容器内配置的GPU个数不超过指定的GPU规格所具备的GPU个数。配置示例如下：apiVersion:apps/v1 kind:Deployment metadata:name:test labels:app:test spec:replicas:2 selector:...

共享自定义镜像

当轻量应用服务器的配置不能再满足您的业务需要、或者您期望使用云服务器ECS部署业务时，您可以通过共享镜像将业务从轻量应用服务器转移至云服务器ECS。前提条件已创建自定义镜像。具体操作，请参见创建自定义镜像。计费自定义镜像支持...

指定GPU规格创建Pod

默认情况下，多个容器可以共享使用GPU，配置时需确保单个容器内配置的GPU个数不超过指定的GPU规格所具备的GPU个数。配置示例如下：apiVersion:apps/v1 kind:Deployment metadata:name:test labels:app:test spec:replicas:2 selector:...

使用救援连接Linux服务器

当您的Linux服务器因为修改SSH配置等其它原因导致无法远程连接时，可以通过管理控制台的救援功能临时登录服务器进行问题修复。背景信息仅Linux服务器支持救援功能。选用以下镜像创建的服务器均为Linux服务器：Linux系统的应用镜像 CentOS...

修改服务器名称

轻量应用服务器支持手动修改服务器的名称，便于您区分和管理不同的服务器。本文介绍如何修改服务器名称。操作步骤登录轻量应用服务器管理控制台。在左侧导航栏，单击 服务器。将鼠标悬浮在服务器卡片中的服务器名称上，单击图标。说明 ...

远程连接Windows服务器

您可以通过轻量应用服务器管理控制台或本地Windows系统自带的远程桌面连接工具连接Windows轻量应用服务器，本文为您提供具体的操作指引。前提条件待连接的Windows服务器的状态为运行中。已设置服务器密码。具体操作，请参见设置或重置...

不花钱的GPU服务器

新品推荐