如何使用gpu服务器-如何使用gpu服务器文档介绍内容-阿里云

最佳实践概览

内网互通轻量应用服务器使用阿里云自动分配的专有网络VPC（Virtual Private Cloud）进行网络隔离，默认情况下不与云服务器ECS、云数据库等其他处于专有网络VPC中的阿里云产品内网互通。但同地域下轻量应用服务器与对象存储OSS（Object ...

手动升级GPU节点驱动

如果有服务在使用GPU，那么执行该命令后，将会有输出，表示有进程在使用GPU。下方示例显示有一个进程（进程号3781）在使用GPU资源。USER PID ACCESS COMMAND/dev/nvidia0:root 3781 F.dcgm-exporter/dev/nvidiactl:root 3781 F.m dcgm-...

使用GPU拓扑感知调度（Pytorch版）

前提条件已创建ACK Pro集群，且集群的实例规格类型选择为 GPU云服务器。更多信息，请参见创建Kubernetes托管版集群。已安装 Arena。已安装GPU拓扑感知调度组件。系统组件版本满足以下要求。组件版本要求 Kubernetes 1.18.8及以上版本 ...

使用须知

轻量应用服务器使用须知轻量应用服务器的实例适用于小型Web应用、轻量应用等低负载、突发型应用场景。如果您需要选择其他的实例类型或者需要具有较高CPU性能负载的实例（例如，大型应用、视频编码等），请您使用云服务器ECS。更多信息，请...

使用Kubernetes默认GPU调度

阿里云容器服务ACK支持GPU的调度与运维管理。默认的GPU使用模式与Kubernetes社区GPU的使用方式一致。本文以运行GPU的TensorFlow任务为例，介绍如何快速部署一个GPU应用。注意事项针对纳入K8s集群管理的GPU节点，建议您按照本文示例中标准...

服务关联角色

轻量应用服务器使用服务关联角色获取其他云服务或云资源的访问权限。通常情况下，服务关联角色是在您执行某项操作时，由系统自动创建。阿里云访问控制为每个服务关联角色提供了一个系统权限策略，该策略不支持修改。如果您想了解该系统策略...

支持的云服务

使用服务器迁移时，您可能会同时使用阿里云云服务器ECS、专有网络VPC、容器服务ACK等服务。SMC与其他云服务的关系如下图所示。具体说明如下表所示。服务名称与其他服务的关系相关文档 云服务器ECS 迁移服务器时，先通过快照将源服务器...

管理内网互通

轻量应用服务器使用阿里云自动分配的专有网络VPC（Virtual Private Cloud）进行网络隔离，默认情况下不与云服务器ECS、云数据库等其他处于专有网络VPC中的阿里云产品内网互通，您可以通过设置内网互通实现互联互通。本文介绍如何设置内网...

快速搭建AI对话机器人

本文介绍如何使用阿里云GPU云服务器，基于ChatGLM-6B语言模型快速搭建AI对话机器人。背景信息 ChatGLM-6B是一个开源的、支持中英双语对话的语言模型，它基于General Language Model（GLM）架构，具有62亿参数；并使用了和ChatGPT相似的技术...

利用DCGM实现GPU的性能分析

角色类型说明集群管理员作为公司的Kubernetes集群管理员，您可能需要了解公司各个部门使用GPU资源的习性，从而更好地理解并优化整个集群中GPU资源的分配和使用情况，以提高集群的整体效率和服务质量。具体使用场景，请参见：场景一：...

监控与报警

GPU单卡维度监控指标描述 GPU显存设备接口使用率（卡维度）指定Pod的单张/多张卡的GPU显存设备接口使用率。GPU SM设备使用率（卡维度）指定Pod的单张/多张卡的GPU SM设备使用率。GPU设备功耗（卡维度）指定Pod的单张/多张卡的GPU设备功耗...

图像处理最佳实践

提供GPU共享虚拟化，支持以1/2、独占方式使用GPU，允许业务以更精细化的方式配置GPU实例。效率优先的图像处理场景屏蔽运维GPU集群的繁重负担（驱动/CUDA版本管理、机器运行管理、GPU坏卡管理），使得开发者专注于代码开发、聚焦业务目标的...

使用阿里云Prometheus监控集群GPU资源

本文介绍通过阿里云Prometheus对GPU资源进行监控，查看GPU各项指标。前提条件您已完成以下操作：创建GPU集群或创建专有GPU集群。开通阿里云Prometheus服务。已安装阿里云Prometheus监控。具体操作，请参见阿里云Prometheus监控。费用...

通过共享GPU调度实现算力分配

ACK集群Pro版支持为应用申请GPU显存和算力，能够帮助您更精细化的使用GPU的显存和算力资源。本文介绍如何通过共享GPU调度实现算力分配。前提条件已创建 ACK集群Pro版，且集群版本为v1.20及以上。具体步骤，请参见创建Kubernetes托管版...

GPU节点调度属性标签

安装云原生AI套件的调度组件ack-ai-installer之后，您可以为GPU节点打上调度属性标签，帮助GPU节点启用共享GPU调度、GPU拓扑感知调度等能力。本文介绍GPU节点调度属性标签及如何切换标签的值。GPU节点调度属性标签说明标签ack.node.gpu....

命令行使用说明

GPU：GPU规格和数量。instance_type：实例规格。参数说明：a：列出您当前阿里云账户下所有实例。会提供Key-Owner（密钥对）和instance_id（实例id）两个额外的信息。查询当前Linux账户下的实例：fastgpu ls 查询同一个阿里云账号不同Linux...

在GPU计算型实例中安装Tesla驱动（Linux）

在深度学习、AI等通用计算业务场景或者OpenGL、Direct3D、云游戏等图形加速场景下，安装了Tesla驱动的GPU才可以发挥高性能计算能力，或提供更流畅的图形显示效果。如果您在创建GPU计算型实例（Linux）时未同时安装Tesla驱动，则需要在创建...

监控集群GPU资源最佳实践

本文介绍如何使用GPU监控2.0监控ACK集群中的GPU资源。前提条件已创建Kubernetes集群（ACK专有版集群、ACK集群基础版、ACK集群Pro版或 ACK Edge集群），本文以 ACK集群Pro版为例。已安装GPU监控2.0相关组件。具体操作，请参见开启集群...

快速搭建WordPress个人博客

阿里云轻量应用服务器提供了多种应用镜像，您可以直接使用不同的应用镜像快速部署应用环境或网站。本文以WordPress应用镜像为例，介绍如何快速搭建WordPress个人博客及其使用WordPress的WPtouch插件搭建移动端的WordPress个人博客。背景...

开启集群GPU监控

新一代NVIDIA支持使用数据中心GPU管理器DCGM（Data Center GPU Manager）来管理大规模集群中的GPU，GPU监控2.0基于NVIDIA DCGM构建功能更强大的GPU监控体系。DCGM提供了种类丰富的GPU监控指标，有如下功能特性：GPU行为监控 GPU配置管理 ...

服务器证书管理

服务器证书用于客户端认证服务端，服务器证书需要由您自行购买或自行签发并托管至阿里云数字证书管理服务。本文为您介绍如何生成并使用服务器证书。服务器证书使用流程使用限制仅铂金版实例和专业版实例支持服务器证书管理功能。前提条件...

网络安全

轻量应用服务器使用阿里云自动分配的专有网络VPC（Virtual Private Cloud）进行网络隔离，同一账号同一地域下，多台轻量应用服务器默认处于同一个VPC内网环境，多服务器间的互联互通可以通过内网实现，但与同账号下的云服务器ECS、云数据库...

产品优势

轻量应用服务器是快速搭建且易于管理的轻量级云服务器，提供基于单台服务器的应用部署，安全管理，运维监控等服务，一站式提升您的服务器使用体验和效率。本文主要介绍轻量应用服务器的优势以及核心功能对比。优势简单易用一键启动服务器...

ack-ai-installer

同时，ack-ai-installer（cgpu-installer）还支持GPU算力隔离，并提供不同的分配策略（平均、抢占、权重等），可以更精细化地调度和使用GPU的算力资源。关于共享GPU调度与隔离的更多信息，例如安装方式、使用场景等，请参见安装共享GPU...

什么是轻量应用服务器

轻量应用服务器（Simple Application Server）是可以...产品对比与云服务器ECS相比，轻量应用服务器使用门槛较低，配置简便，能让您快速上手并部署简单的应用或网站，更适合个人开发者、学生等用户。更多信息，请参见与云服务器ECS对比。

导入迁移源概述

迁移场景 服务器迁移可将IDC服务器、虚拟机、其他云平台的云主机或者云服务器的业务迁移到阿里云，提高业务迁移到阿里云的效率。VMware无代理迁移通过VMware Agentless无侵入式迁移技术，可将VMware虚拟机的业务迁移到阿里云，提高业务...

指定GPU规格创建Pod

默认情况下，多个容器可以共享使用GPU，配置时需确保单个容器内配置的GPU个数不超过指定的GPU规格所具备的GPU个数。配置示例如下：apiVersion:apps/v1 kind:Deployment metadata:name:test labels:app:test spec:replicas:2 selector:...

指定GPU规格创建Pod

默认情况下，多个容器可以共享使用GPU，配置时需确保单个容器内配置的GPU个数不超过指定的GPU规格所具备的GPU个数。配置示例如下：apiVersion:apps/v1 kind:Deployment metadata:name:test labels:app:test spec:replicas:2 selector:...

使用限制

本文介绍服务器迁移相关的使用限制，以便您更好地使用服务器迁移。迁移源和迁移任务数量限制限制项普通用户限制例外申请方式（例外上限）一个阿里云账号总共可注册的迁移源数量 1000 提交工单一个阿里云账号总共可创建的迁移任务数量 ...

AI负载调度

功能描述参考文档共享GPU调度 GPU共享调度可以降低使用GPU的经济成本，保障程序运行的稳定性。ACK Pro版集群支持以下GPU设备分配策略：单Pod单GPU卡共享和隔离，常用于支持模型推理场景。单Pod多GPU卡共享和隔离，常用于支持分布式模型...

GPU实例FAQ

本文介绍使用GPU实例过程中可能遇到的问题，并提供对应的解决方案。函数计算GPU实例的驱动版本是什么？函数计算GPU实例的CUDA版本是什么?构建镜像时报错CUDA GPG Error如何解决？为什么我的GPU实例规格显示的是g1？为什么我的预留GPU实例...

GPU实例FAQ

本文介绍使用GPU实例过程中可能遇到的问题，并提供对应的解决方案。函数计算GPU实例的驱动版本是什么？函数计算GPU实例的CUDA版本是什么?构建镜像时报错CUDA GPG Error如何解决？为什么我的GPU实例规格显示的是g1？为什么我的预留GPU实例...

步骤二：创建RHEL镜像

将物理服务器迁移到阿里云ECS（P2V和V2V）您可以使用服务器迁移中心SMC（Server Migration Center）将物理服务器的操作系统镜像迁移到阿里云ECS，在将镜像导入ECS后，再通过已导入的镜像创建RHEL实例。将虚拟机迁移到阿里云ECS（V2V）在...

云原生AI套件管理员运维指南

Job Instance Used GPU Memory Percentage：训练任务中各个实例使用GPU显存的百分比。Job Instance GPU Duty Cycle：训练任务中各个实例的GPU利用率。资源配额监控大盘在训练任务监控大盘页面，单击右上角的 Quota，进入资源配额监控大盘...

镜像使用说明

您可以快速开始使用GPU进行高性能计算。这些官方基础镜像已经预先配置好了相应的环境和依赖，可以直接使用，省去繁琐的安装和配置过程。您可以在构建业务逻辑时使用这些镜像，以此提高应用的性能和可靠性。以下是函数计算 GPU提供的基础...

GPU节点卡型属性标签

在使用Kubernetes集群实现GPU计算时，为了有效利用GPU设备，可使用GPU节点卡型属性标签将应用调度至目标节点。本文介绍GPU节点卡型属性标签基本信息以及如何使业务运行或不运行在指定卡型上。GPU节点卡型属性标签说明在ACK集群中扩容GPU...

IIS Web网站访问故障

在 服务器管理器页面右上角，选择工具>Internet Information Services(IIS)管理器。在 Internet Information Services(IIS)管理器页面左侧导航栏，单击目标网站。在 IIS 区域，双击错误页。在 Internet Information Services(IIS)管理...

基于GPU指标实现弹性伸缩

功能介绍在高性能计算领域，例如深度学习模型训练、推理等场景，通常需要使用GPU来做计算加速。为了节省成本，您可以根据GPU指标（利用率、显存）来进行弹性伸缩。Kubernetes默认提供CPU和内存作为HPA弹性伸缩的指标。如果有更复杂的场景...

常见问题

如果您的ECS实例的网络类型是VPC网络，迁移源默认会显示在阿里云ECS云服务器页签下。我在什么场景下使用服务器迁移？SMC可将待迁移物理服务器、虚拟机以及其他云平台云主机一站式地迁移到阿里云ECS，支持迁移主流Windows和Linux操作系统...

基于GPU指标实现弹性伸缩

功能介绍在高性能计算领域，例如深度学习模型训练、推理等场景，通常需要使用GPU来做计算加速。为了节省成本，您可以根据GPU指标（利用率、显存）来进行弹性伸缩。Kubernetes默认提供CPU和内存作为HPA弹性伸缩的指标。如果有更复杂的场景...

如何使用gpu服务器

新品推荐