自助诊断GPU节点问题

根据 nvidia-smi 状态排查问题 nvidia-smi(NVIDIA System Management Interface)是一个监测NVIDIA GPU设备状态的命令行实用工具,可以用于管理GPU服务器性能和健康状况。您可以根据检查报告中 NVIDIASMIStatusCode 的结果,参见下表,...

云服务器服务条款

云服务器服务条款最新内容,请参见 轻云服务器服务协议。

相关协议

阿里云云服务器服务协议 云服务器ECS服务等级协议 云服务器ECS服务等级协议(本地地域版)申请续用Windows Server 2008 镜像服务协议 申请续用Windows Server 2003 镜像服务协议 第三方软件问题与说明 阿里产品及服务协议(快照)禁止...

异构计算产品最佳实践概览

GPU AI模型训练最佳实践 适用于AI图片训练场景,使用CPFS/NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行AI图片训练。在GPU实例上使用RAPIDS加速机器学习任务 在GPU实例上基于NGC环境使用RAPIDS加速库,加速数据科学和...

连接方式概述

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的连接方式。ECS支持通过多种方式连接实例,包括阿里提供的连接工具(例如Workbench、VNC等)和第三方客户端工具。您可以综合考虑目标实例的操作系统、本地设备的操作系统、...

支持的云服务

本文介绍云服务器ECS与其他云服务的关系。...服务器迁移指引 市场 云服务器ECS可以在 市场 获取由第三方服务商提供的基础软件、企业软件、网站建设、代运维、安全、数据及API、解决方案等相关的各类软件和服务。使用市场镜像

GPU实例上部署NGC环境

NGC(NVIDIA GPU CLOUD)是NVIDIA开发的一套深度学习生态系统,方便您免费访问深度学习软件堆栈,建立适合深度学习的开发环境。本文以搭建TensorFlow深度学习框架为例,为您介绍如何在GPU实例上部署NGC环境。背景信息 NGC作为一套深度学习...

GPU实例上配置eRDMA

弹性网卡(Elastic Network Interfaces,简称ENI)是专有网络VPC中的虚拟网络接口,用于连接云服务器与专有网络。更多信息,请参见 弹性网卡概述。弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA)是阿里提供的低延迟、大...

directx-device-plugin-windows

在阿里上使用虚拟化GPU云服务器时,directx-device-plugin-windows可以为Windows容器提供基于DirectX构建的GPU加速功能。关于虚拟化GPU云服务器的详细介绍,请参见 GPU虚拟化型。directx-device-plugin-windows仅支持v1.20.4及其以上版本...

云服务器 ECS系统权限策略参考

查看策略详情 服务关联角色策略 AliyunServiceRolePolicyForEcsInsight 云服务器 ECS使用服务关联角色 AliyunServiceRoleForEcsInsight 来访问您在其他产品中的资源。AliyunServiceRolePolicyForEcsInsight 是 ...

产品范围

专属区域可以支持的产品范围 专属区域支持的产品范围 IaaS产品:云服务器 ECS、弹性裸金属服务器 EBM、GPU 云服务器、FPGA 云服务器、Alibaba Cloud Linux、容器服务 ACK、容器镜像服务 ACR、块存储 EBS、对象存储 OSS、文件存储 NAS、...

GPU计算型实例中安装Tesla驱动(Windows)

在深度学习、AI等通用计算业务场景下,安装了Tesla驱动的GPU才能发挥高性能计算能力。本文为您介绍为Windows系统的GPU计算型实例手动安装Tesla驱动的方法。操作步骤 说明 本文适用于所有Windows系统GPU计算型实例,更多信息,请参见 GPU...

ACK集群实现GPU AI模型训练

场景描述 本方案适用于AI图片训练场景,使用CPFS和NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。解决问题 搭建AI图片训练基础环境。使用CPFS存储训练数据。使用飞天AI加速训练工具加速训练。使用Arena一...

搭建Linux环境GRID驱动的License Server

步骤三:安装并运行Apache Tomcat服务器 使用Linux发行版的软件包管理安装所需的Apache Tomcat软件包。sudo apt install tomcat8 安装完成后,运行以下命令,将Tomcat服务设置为开机自启动。sudo systemctl enable tomcat8.service 启动...

升级Tesla或GRID驱动

如果您的NVIDIA Tesla或NVIDIA GRID驱动版本已不适用于当前场景,或者您安装了错误的驱动类型或版本导致GPU实例无法使用,您可以通过卸载当前驱动再安装所需驱动的方式,完成Tesla或GRID驱动的升级操作。升级NVIDIA Tesla 驱动 升级Tesla...

搭建Windows环境GRID驱动的License Server

安装GRID驱动,然后添加License服务器并激活License。具体操作,请参见 在GPU实例(计算型和虚拟化型)中安装GRID驱动(Windows)。激活License时,请填写您搭建了License Server的ECS实例公网IP,端口号为7070。前往License Server管理...

命令行使用说明

GPUGPU规格和数量。instance_type:实例规格。参数说明:a:列出您当前阿里账户下所有实例。会提供Key-Owner(密钥对)和instance_id(实例id)两个额外的信息。查询当前Linux账户下的实例:fastgpu ls 查询同一个阿里账号不同Linux...

API使用规范

您通过API获得并使用阿里提供的云服务,并应遵守的服务条款详见如下:云服务器服务条款 关系型数据库服务条款 对象存储服务条款 负载均衡服务条款 内容分发网络服务条款 6.4.本使用条款受中华人民共和国法律管辖。在执行本服务条款过程中...

Python SDK使用说明

您可以通过FastGPU提供的Python接口,将FastGPU集成到您的人工智能训练或推理脚本中,从而快速地实现上部署和资源管理。本文为您介绍FastGPU的Python SDK相关使用说明。前提条件 客户端已安装Python 3.6或以上版本。说明 您的ECS实例、...

创建弹性裸金属服务器实例

阅读并确认《云服务器ECS服务条款》和《云服务器ECS退订说明》,单击 确认下单。说明 仅购买包年包月实例时,才需要阅读并确认《云服务器ECS退订说明》。创建实例一般需要3~5分钟,请您耐心等待。您可前往控制台的实例列表页面查看实例的...

【公告】GRID驱动变更通知

尊敬的阿里用户,NVIDIA将于2023年7月31日后不再对FLS GRID License提供技术支持,且阿里采购的FLS GRID License也将于2023年9月底到期,为了您的业务不受GRID驱动变更影响,建议您尽快将目前使用的GPU图形加速驱动(采用FLS GRID ...

云服务器ECS对比

如果您需要使用更丰富的实例类型,如通用型、计算型、大数据型、弹性裸金属服务器GPU/FPGA/NPU异构计算型等,支持高并发网站、视频编解码、大型游戏、复杂分布式集群应用等业务场景,请使用云服务器ECS产品。关于云服务器ECS的更多实例...

观测

观测云服务器资源 在部署服务实例前,需要准备如下表所示的服务器资源。说明 资源清单中用于部署DataWay的两台ECS不在资源编排中,可以在安装部署完成后,自行创建ECS来部署DataWay。最低配置只适用于POC场景部署,只作为功能验证,不适...

使用GPU拓扑感知调度(Pytorch版)

前提条件 已创建ACK Pro集群,且集群的实例规格类型选择为 GPU云服务器。更多信息,请参见 创建Kubernetes托管版集群。已安装 Arena。已安装GPU拓扑感知调度组件。系统组件版本满足以下要求。组件 版本要求 Kubernetes 1.18.8及以上版本 ...

使用GPU拓扑感知调度(Tensorflow版)

前提条件 已创建ACK Pro集群,且集群的实例规格类型选择为 GPU云服务器。更多信息,请参见 创建Kubernetes托管版集群。已安装 Arena。已安装GPU拓扑感知调度组件。系统组件版本满足以下要求。组件 版本要求 Kubernetes 1.18.8及以上版本 ...

什么是Deepytorch Training(训练加速)

Deepytorch Training是阿里自研的AI训练加速,为生成式AI和大模型场景提供训练加速功能。本文主要介绍Deepytorch Training在训练加速上的概念、优势及特性。Deepytorch Training介绍 Deepytorch Training面向生成式AI和大模型场景,...

计算资源优化

GPU 云服务器 EGS(Elastic GPU Service):GPU云服务器是基于GPU与CPU应用的计算服务器GPU在执行复杂的数学和几何计算方面有着独特的优势,特别是在浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。GPU的功能特性如下:...

什么是Deepytorch

Deepytorch是阿里自研的AI加速,为生成式AI和大模型场景提供训练和推理加速功能。在训练方面,Deepytorch在保障精度的前提下实现端到端训练性能的显著提升,可降低训练成本,提升迭代速度。在推理方面,Deepytorch通过即时编译技术对...

什么是AI通信加速库Deepnccl

Deepnccl是为阿里神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍Deepnccl的架构、优化原理和性能说明。产品简介 Deepnccl基于NCCL(NVIDIA Collective ...

云服务器部署

SSL证书签发完成后,您可以通过控制台创建云服务器部署任务,将证书相关文件上传至云服务器的指定目录,或替换云服务器指定目录中的证书文件,以便无缝集成到云服务器Web应用证书更新流程中,同时避免了手动下载或上传证书过程中可能出现的...

支持的云服务

使用服务器迁移时,您可能会同时使用阿里云云服务器ECS、专有网络VPC、容器服务ACK等服务。SMC与其他云服务的关系如下图所示。具体说明如下表所示。服务名称 与其他服务的关系 相关文档 云服务器ECS 迁移服务器时,先通过快照将源服务器...

启动方式与环境变量说明

默认PyTorch训练时会启动一个rendezvous服务,AIACC会启动一个类似的rendezvous服务,因为两者共用同一台master_addr地址,您只需保证两者端口号不同即可。PERSEUS_NCCL_NETWORK_INTERFACE(1.5.0+)设置nccl通信使用的网卡信息,默认为eth0...

通过CEN实现ECS和无影电脑网络互通

背景信息 云服务器ECS(Elastic Compute Service)是阿里提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别计算服务云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样...

使用AIACC-Training PyTorch版

在Torch 1.9版本,默认使用的启动方式为torch.distributed.run,该方式使用默认的rdzv_backend作为训练的launcher,但是在启动训练之前就已经创建了服务,而代码里如果有 dist.init_process_group()则会继续创建该服务,因此导致冲突,单机...

购买须知

相关链接 以下文档介绍了云服务器ECS的基本概念和使用相关信息:云服务器ECS相关的概念和服务,请参见 什么是云服务器ECS。ECS实例的选择指引,请参见 实例规格族。操作系统的选择指引,请参见 选择镜像。块存储的选择指引,请参见 块存储...

创建ECS跳板机

本文描述了用户如何创建用于访问专属VMware环境的云服务器ECS跳板机。前提条件 完成专属VMware环境创建,详细过程请参见 创建实例。任务 创建云服务器ECS跳板机-Windows操作系统。操作步骤 访问专属VMware环境的VMware管理组件如vCenter、...

服务关联角色

云服务器ECS使用服务关联角色获取其他云服务或资源的访问权限。通常情况下,服务关联角色是在您执行某项操作时,由系统自动创建。在自动创建服务关联角色失败或云服务器ECS不支持自动创建时,您需要手动创建服务关联角色。阿里访问控制...

基本概念

服务器迁移 可将服务器、虚拟机、云服务器的业务迁移到阿里,提高业务迁移到阿里的效率。更多信息,请参见 各源环境迁移至阿里。VMware无代理迁移 通过VMware Agentless无侵入式迁移技术,可将VMware虚拟机的业务迁移到阿里,提高...

在默认服务器组添加和管理云服务器

管理默认服务器组中的云服务器 在默认服务器组中添加云服务器后,您可修改云服务器的流量分发权重。如果不需要该云服务器来转发流量,您可以移除对应的云服务器。登录 传统型负载均衡CLB控制台。在顶部菜单栏选择目标实例的所属地域。在 ...

平台一键迁移

本文档介绍如何通过控制台一键迁移的方式将您的Windows或Linux服务器(包括腾讯云服务器和AWS云服务器)迁移至阿里。前提条件 如果迁移腾讯云服务器:已在腾讯访问管理控制台创建并获取SecretId和SecretKey。具体操作,请参见 访问密钥...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云服务器 ECS GPU云服务器 负载均衡 轻量应用服务器 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用