安装并使用DeepNCCL

开发人员可以根据实际业务情况,在不同的GPU云服务器上安装DeepNCCL通信库,以加速分布式训练或推理性能。本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用DeepNCCL的操作方法。说明 关于DeepNCCL的更多信息,请参见 什么是AI...

什么是AI通信加速库DeepNCCL

DeepNCCL是为阿里神龙异构产品开发的一种用于多GPU互联的AI通信...相关文档 针对分布式训练或者多卡推理中的AI通信场景,在不同的GPU云服务器上安装DeepNCCL通信库,可以加速分布式训练或推理性能。具体操作,请参见 安装并使用Deepnccl。

安装共享GPU调度组件

ACK Pro集群的实例规格架构设置为 GPU云服务器。其他配置,请参见 创建ACK集群Pro版。已获取集群KubeConfig并通过kubectl工具连接集群。使用限制 请勿将共享GPU调度的节点的CPU Policy设置为 static。cGPU服务的隔离功能不支持以UVM的方式...

常用操作导航

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的操作方式。在使用云服务器ECS时,您可能会遇到各种问题,例如远程连接、更换操作系统、扩容盘、升高或降低实例配置、使用快照或镜像等。本文介绍了云服务器ECS的常用操作,...

ACK支持的GPU机型

GPU计算型gn4 NVIDIA M40 GPU计算型gn5i NVIDIA P4 GPU计算型gn5 NVIDIA P100 GPU计算型gn6e NVIDIA V100 GPU计算型gn6i NVIDIA T4 GPU计算型gn6v NVIDIA V100 GPU计算型gn7i NVIDIA A10 GPU计算型gn7s NVIDIA A30 GPU计算型弹性裸金属...

Designer中GPU服务器及对应算法组件下线

Designer中GPU服务器及对应算法组件下线,后续可使用原生版本 停止服务内容 因当前提供服务的V100、P100服务器集群即将过保,PAI将在2024年3月1日正式下线Designer中的TensorFlow(GPU)、MXNet、PyTorch算法组件。您后续可继续使用原生...

实例规格族

弹性裸金属服务器融合了物理机与云服务器的优势,实现超强超稳的计算能力。通过阿里自主研发的虚拟化2.0技术,您的业务应用可以直接访问弹性裸金属服务器的处理器和内存,无任何虚拟化开销。弹性裸金属服务器具备物理机级别的完整处理器...

镜像商品的版本管理

可以不做设置,不设置代表该镜像运行可以支持1核及以上GPU云服务器 内存配置 不做设置 0.5 GiB – 1024 GiB 可以不做设置,不设置代表该镜像部署和运行可以支持0.5GiB及以上内存的云服务器 VPC专有网络是否支持多网卡 支持 支持和不支持...

连接方式概述

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的连接方式。ECS支持通过多种方式连接实例,包括阿里提供的连接工具(例如Workbench、VNC等)和第三方客户端工具。您可以综合考虑目标实例的操作系统、本地设备的操作系统、...

异构服务型

云服务器ECS异构服务型实例video-trans适用于视频转码、图像与视频内容处理以及帧图像提取等场景。通过本文您可以具体了解该实例的特点以及包含的实例规格和指标数据等。video-trans特点 提供专属硬件资源和物理隔离 高密度转码,例如显示...

使用限制

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的使用限制。本文介绍云服务器ECS在产品功能和服务性能上的不同限制,以及如何申请更高配额。限制概述 使用云服务器ECS有下列限制:仅弹性裸金属服务器和超级计算集群支持二次...

GPU计算型实例中安装Tesla驱动(Windows)

在深度学习、AI等通用计算业务场景下,安装了Tesla驱动的GPU才能发挥高性能计算能力。本文为您介绍为Windows系统的GPU计算型实例手动安装Tesla驱动的方法。操作步骤 说明 本文适用于所有Windows系统GPU计算型实例,更多信息,请参见 GPU...

使用VNC登录实例

无法使用Workbench和第三方远程连接工具(例如PuTTY、Xshell、SecureCRT等)连接实例时,您可以通过VNC远程连接方式登录实例,查看云服务器ECS操作界面的实时状态。重要 自2023年7月10日起,远程连接工具VNC无需单独设置VNC登录密码,即可...

远程连接FAQ

排查思路 如果无法远程连接轻量应用服务器时,阿里云推荐您按照以下思路排查问题。以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。如果解决完某个可能原因仍未解决问题,请...

身份管理

推荐的做法是使用RAM身份(即RAM用户和RAM角色)来访问服务器迁移中心。RAM用户 RAM用户需要由阿里账号(即主账号)或拥有管理员权限的RAM用户、RAM角色来创建,且必须在获得授权后才能登录控制台或使用API访问阿里账号下的资源。对于...

GPU计算型

主售(推荐类型)GPU计算型实例规格族gn7e GPU计算型实例规格族gn7i GPU计算型实例规格族gn7s GPU计算型实例规格族gn7 GPU计算型实例规格族gn7r GPU计算型实例规格族gn6i GPU计算型实例规格族gn6e GPU计算型实例规格族gn6v GPU计算型弹性裸...

部署高可用架构应用集群

步骤四:修改数据库服务器中数据库的权限 当前已成功创建两台应用服务器服务器A 与 服务器B),为确保应用服务器与数据库服务器进行数据传输时的安全性,建议您将数据库服务器C中的MySQL访问权限,由 所有人 修改 指定IP,并指向两台应用...

超级计算集群概述

SCC与阿里ECS、GPU云服务器等计算类产品一起,为 阿里弹性高性能计算平台E-HPC 提供了极高性能的并行计算资源,实现真正的上超算。机型对比 SCC与物理机、虚拟机的对比如下表所示。其中,Y表示支持,N表示不支持,N/A表示无数据。...

安装并使用DeepGPU-LLM

在处理大语言模型任务中,您可以根据实际业务部署情况,选择在不同环境(例如GPU云服务器环境或Docker环境)下安装推理引擎DeepGPU-LLM,然后通过使用DeepGPU-LLM工具实现大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义...

ECS选型最佳实践

本文主要介绍如何结合实际业务场景选购阿里云云服务器ECS。重要 本文主要介绍如何选择企业级实例规格族,不包括入门级(共享型)规格族。有关入门级实例选型,请参见 共享型 或 突发性能实例概述。了解实例规格族 实例规格清单:实例规格族...

弹性裸金属服务器概述

本地SSD型弹性裸金属服务器实例规格族ebmi2g GPU计算型:GPU计算型弹性裸金属服务器实例规格族ebmgn7ex GPU计算型弹性裸金属服务器实例规格族ebmgn7e GPU计算型弹性裸金属服务器实例规格族ebmgn7ix GPU计算型弹性裸金属服务器实例规格族...

安装和使用Deepytorch Training

Deepytorch Training是阿里自研的AI加速,面向传统AI和生成式AI场景,在模型训练过程中,可提供显著的训练加速能力。本文主要介绍安装并使用Deepytorch Training的操作方法。说明 关于Deepytorch Training的更多信息,请参见 什么是...

GPU云服务器常见问题

为了有效排查和解决GPU云服务器的相关问题,本文为您汇总了使用GPU时遇到的一些常见问题。类别 相关问题 功能问题 为什么Windows操作系统不支持DirectX等功能?GPU实例支持安卓模拟器吗?我能变更GPU实例的配置吗?按量付费GPU实例支持节省...

什么是AI分布式训练通信优化库AIACC-ACSpeed

上图中,GPU0~GPU3或者GPU4~GPU7的各卡之间相互通过PCIe Bridge连接(PIX),而GPU0到GPU4~GPU7、GPU1到GPU4~GPU7、GPU2到GPU4~GPU7、GPU3到GPU4~GPU7之间需要通过socket之间的QPI/UPI接口连接(SYS)。优化方法 在原生NCCL通信库中,默认...

使用限制

云服务器ECS在产品功能和服务性能上可能存在一些限制,建议您在实际使用之前了解相应的限制,提前规划并申请适合您需求的更高配额,以确保云服务器ECS能够满足您的业务需求。本文介绍云服务器ECS在产品功能和服务性能上存在的限制以及如何...

创建GPU实例

如果您购买的是包年包月实例,请阅读《云服务器ECS服务条款》、《镜像商品使用条款》和《云服务器ECS退订说明》,如无疑问,选中《云服务器ECS服务条款》|《镜像商品使用条款》|《云服务器ECS退订说明》。单击 确定下单。在支付页面,查看...

什么是计算优化编译器AIACC-AGSpeed

AIACC-AGSpeed(AIACC 2.0-AIACC Graph Speeding)是阿里推出的一个基于PyTorch深度学习框架研发的计算优化编译,用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,AIACC-AGSpeed是...

什么是轻量应用服务器

轻量应用服务器(Simple Application Server)是可以快速搭建且易于管理的轻量级云服务器,面向单台服务器提供了一键部署应用、一站式域名解析、安全管理以及运维监控等服务。轻量应用服务器操作简单便捷,能让您快速上手部署简单的应用。...

使用限制

FPGA实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的使用限制。本文介绍云服务器ECS在产品功能和服务性能上的不同限制,以及如何申请更高配额。限制概述 使用云服务器ECS有下列限制:仅弹性裸金属服务器和超级计算集群支持二次...

ICP备案后-经营性备案

可能需要的资料 阿里IDC资质、阿里云服务器托管商ISP:请通过 智能在线 咨询阿里客服。阿里云服务器存放物理地址:网站服务器存放物理地址为您购买服务器时所选地域的具体地址。例如,您的服务器地域为华北2则对应城市为北京,如需获取...

AIACC-ACSpeed体验示例

AIACC-ACSpeed(简称ACSpeed)作为阿里自研的AI训练加速,在提高训练效率的同时能够降低使用成本,可以实现无感的分布式通信性能优化。ACSpeed软件包中已为您提供了适配DDP的示例代码,您可以参考本文快速体验使用ACSpeed进行模型分布...

启动方式与环境变量说明

在imagenet训练中使用MomentumSGD(训练优化)时,建议设置为0.9。PERSEUS_NCCL_ENABLE(特殊版本)0:关闭NCCL混合链路支持。1:启用NCCL混合链路支持。默认值为0。当使用SCC机型时,可以启用此feature,在训练时同时使用RDMA链路与VPC...

安装和使用AIACC-AGSpeed

AIACC-AGSpeed(简称AGSpeed)专注于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,可以实现无感的计算优化性能。本文为您介绍安装和使用AGSpeed的方法。前提条件 已创建阿里云GPU实例,且...

轻量应用服务器之间的数据迁移

迁移场景 源服务器配置说明 目标服务器配置说明 同地域迁移轻量应用服务器 服务器名称:轻量应用服务器A 地域:华北2(北京)镜像:LAMP 7.4应用镜像 防火墙:已放行80、443、22端口 应用程序:默认已在轻量应用服务器A的网站根目录/data/...

Serverless GPU概述

Serverless GPU是一种新兴的计算GPU服务,它采用了服务器无感知计算的理念,通过提供一种按需分配的GPU计算资源,有效地解决原有GPU长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。本文介绍Serverless GPU的详细...

Serverless GPU概述

Serverless GPU是一种新兴的计算GPU服务,它采用了服务器无感知计算的理念,通过提供一种按需分配的GPU计算资源,有效地解决原有GPU长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。本文介绍Serverless GPU的详细...

安装和使用Deepytorch Inference

Deepytorch Inference是阿里自研的AI推理加速,针对Torch模型,可提供显著的推理加速能力。本文主要介绍安装并使用Deepytorch Inference的操作方法,以及推理效果展示。背景信息 Deepytorch Inference通过调用 deepytorch_inference....

私网传输迁移

推荐)创建阿里云云服务器ECS服务器。建议您使用CentOS 7及以上版本的ECS,具体操作,请参见 自定义购买实例。ECS默认能连接SMC的私网域名,只需确认以下域名能访问即可。例如:杭州地域的激活码为...

支持的云服务

什么是弹性伸缩ESS 助手 助手是专为云服务器ECS打造的原生自动化运维工具,通过免密码、免登录、无需使用跳板机的形式,在ECS实例上实现批量运维、执行命令(Shell、PowerShell和Bat等)和发送文件等操作。典型的使用场景包括:安装卸...

使用EAIS实例部署ChatGLM2-6B

更多GPU实例信息,请参见 什么是GPU云服务器。节省部署成本:在您使用ECS实例(非GPU实例)完成环境搭建之前,您无需创建EAIS实例,此时,仅有ECS实例(非GPU实例)在计费。如果您直接购买GPU实例然后在GPU实例上部署环境,将花费更多的...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
GPU云服务器 云服务器 ECS 轻量应用服务器 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用