ECS选型最佳实践

本文主要介绍如何结合实际业务场景选购阿里云云服务器ECS。重要 本文主要介绍如何选择企业级实例规格族,不包括入门级(共享型)规格族。有关入门级实例选型,请参见 共享型 或 突发性能实例概述。了解实例规格族 实例规格清单:实例规格族...

什么是计算优化编译器AIACC-AGSpeed

AIACC-AGSpeed(AIACC 2.0-AIACC Graph Speeding)是阿里推出的一个基于PyTorch深度学习框架研发的计算优化编译,用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,AIACC-AGSpeed是...

安装和使用Deepytorch Training

Deepytorch Training是阿里自研的AI加速,面向生成式AI和大模型场景,提供了显著的训练加速能力。本文主要介绍安装并使用Deepytorch Training的操作方法。前提条件 已创建阿里云GPU实例,且GPU实例需满足以下要求:操作系统为Alibaba ...

使用限制

FPGA实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的使用限制。本文介绍云服务器ECS在产品功能和服务性能上的不同限制,以及如何申请更高配额。限制概述 使用云服务器ECS有下列限制:仅弹性裸金属服务器和超级计算集群支持二次...

Serverless GPU概述

Serverless GPU是一种新兴的计算GPU服务,它采用了服务器无感知计算的理念,通过提供一种按需分配的GPU计算资源,有效地解决原有GPU长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。本文介绍Serverless GPU的详细...

AIACC-ACSpeed体验示例

AIACC-ACSpeed(简称ACSpeed)作为阿里自研的AI训练加速,在提高训练效率的同时能够降低使用成本,可以实现无感的分布式通信性能优化。ACSpeed软件包中已为您提供了适配DDP的示例代码,您可以参考本文快速体验使用ACSpeed进行模型分布...

Serverless GPU概述

Serverless GPU是一种新兴的计算GPU服务,它采用了服务器无感知计算的理念,通过提供一种按需分配的GPU计算资源,有效地解决原有GPU长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。本文介绍Serverless GPU的详细...

启动方式与环境变量说明

在imagenet训练中使用MomentumSGD(训练优化)时,建议设置为0.9。PERSEUS_NCCL_ENABLE(特殊版本)0:关闭NCCL混合链路支持。1:启用NCCL混合链路支持。默认值为0。当使用SCC机型时,可以启用此feature,在训练时同时使用RDMA链路与VPC...

安装和使用AIACC-AGSpeed

AIACC-AGSpeed(简称AGSpeed)专注于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,可以实现无感的计算优化性能。本文为您介绍安装和使用AGSpeed的方法。前提条件 已创建阿里云GPU实例,且...

实例FAQ

本章节汇总了使用云服务器ECS实例时的常见问题。购买实例问题 如何查看某个地域或可用区是否能购买实例?购买实例时,资源已经售罄怎么办?如何选择适合我业务的ECS实例?购买ECS实例如何付款?开通一台云服务器需要多久?购买实例付款成功...

已停售的GPU实例规格

vCPU 内存(GiB)GPU GPU显存(GB)网络带宽(Gbit/s)网络收发包PPS RoCE网络(Gbit/s)多队列 弹性网卡 单网卡私有IP ecs.sccgn6e.24xlarge 96 768.0 NVIDIA V100*8 32GB*8 32 480万 50 8 32 10 GPU计算型超级计算集群实例规格族sccgn6 ...

支持的云服务

什么是弹性伸缩ESS 助手 助手是专为云服务器ECS打造的原生自动化运维工具,通过免密码、免登录、无需使用跳板机的形式,在ECS实例上实现批量运维、执行命令(Shell、PowerShell和Bat等)和发送文件等操作。典型的使用场景包括:安装卸...

计费常见问题

本文汇总了轻量应用服务器计费的常见问题。轻量应用服务器的计费项有哪些?轻量应用服务器的计费项主要包括套餐配置费用、数据盘费用、超额流量费用。更多信息,请参见 计费项。创建快照和自定义镜像是否收费?在轻量应用服务器中创建快照...

支持资源组的云服务

云服务 云服务代码 控制台 API 资源类型 资源元数据 相关文档 云服务器ECS、FPGA云服务器、GPU云服务器、块存储 ecs 是 是 ddh:DDH 资源ID、资源名称、标签 云服务转组API:JoinResourceGroup 统一转组API:MoveResources 控制台:资源组 ...

从0快速搭建个人版“对话大模型”

本教程介绍如何在阿里云GPU云服务器上基于 Alpaca大模型 快速搭建个人版“对话大模型”。背景信息 Alpaca大模型 是一款基于LLaMA的大语言模型,它可以模拟自然语言进行对话交互,并协助用户完成写作、翻译、编写代码、生成脚本等一系列创作...

产品优势

对比项 弹性容器实例 云服务器ECS 弹性裸金属服务器 成本 只为Pod付费,节约成本。为ECS整体付费。为裸金属服务器整体付费。运维 无需管理节点,运维简单,成本低。需要自行管理节点,运维ECS。需要自行管理节点,运维裸金属服务器。性能 ...

升级配置

例如:如果您需要将SSD盘的套餐升级为ESSD盘(性能级别PL0)的套餐,建议您通过创建自定义镜像的方式,使用自定义镜像创建新的轻量应用服务器,并选择ESSD盘(性能级别PL0)的套餐。更多信息,请参见 自定义镜像概述。仅支持选择相较...

休眠实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。如果您在某个时间段内无需运行ECS实例,也不会执行某些操作(如升降配等),建议您休眠ECS实例。相比停止实例,休眠实例后再次启动实例,ECS实例会自动恢复至休眠前...

在七代安全增强型实例中部署PyTorch深度学习模型

该模型通常被部署于云服务供应商提供的云服务器如阿里ECS。如何确保这些部署于公有上的模型不被他人窃取,确保可用不可见,是模型所有者和云服务提供商共同面临的话题。阿里ECS部分安全增强型实例基于Intel ® SGX(Software Guard ...

GPU FAQ

排查GPU监控常见问题 修复GPU实例重启或被置换后设备ID变更问题 阿里容器服务是否支持GPU虚拟化型(vGPU)实例?如何在已有集群的GPU节点上手动升级Kernel?修复GPU节点容器启动问题 裸金属实例ecs.ebmgn7节点添加失败怎么办?Alibaba ...

接入NVIDIA GPU监控数据

您可使用Telegraf采集NVIDIA GPU监控数据,再通过日志服务Logtail将Telegraf数据上传到MetricStore中,搭建NVIDIA GPU可视化监控方案。本文介绍如何通过日志服务来完成NVIDIA GPU监控数据的采集和可视化。前提条件 已创建Project和...

退款说明

如果您购买轻量应用服务器后需要退订,阿里将基于退订规则退还资源并退还相应的款项,您可以通过退订管理对轻量应用服务器进行退订操作。本文为您介绍轻量应用服务器的退款说明及退订流程。注意事项 在退款时只退还您的实付金额,不包含...

搭建Linux环境GRID驱动的License Server

步骤三:安装并运行Apache Tomcat服务器 使用Linux发行版的软件包管理安装所需的Apache Tomcat软件包。sudo apt install tomcat8 安装完成后,运行以下命令,将Tomcat服务设置为开机自启动。sudo systemctl enable tomcat8.service 启动...

搭建Windows环境GRID驱动的License Server

安装GRID驱动,然后添加License服务器并激活License。具体操作,请参见 在GPU实例(计算型和虚拟化型)中安装GRID驱动(Windows)。激活License时,请填写您搭建了License Server的ECS实例公网IP,端口号为7070。前往License Server管理...

预留实例券概述

预留实例券是一种抵扣券,可以抵扣按量付费实例...说明 是否支持0预付根据您的云服务器使用情况而定。如需使用0预付,请 提交工单。相关链接 预留实例券与实例的匹配 购买预留实例券 拆分预留实例券 合并预留实例券 修改预留实例券 实例FAQ

GPU计算型和GPU虚拟化型实例概述

本文介绍云服务器ECS GPU计算型和GPU虚拟化型实例规格族的特点,并列出了具体的实例规格。推荐 GPU虚拟化型实例规格族sgn7i-vws(共享CPU)GPU虚拟化型实例规格族vgn7i-vws GPU计算型实例规格族gn7e GPU计算型实例规格族gn7i GPU计算型实例...

密码机类型

0.006秒 SM2 PKCS#1 Raw裸验签运算性能:1,300次/秒,响应时间:0.018秒 RSA2048 PKCS#7 Attached带原文的签名运算性能:350次/秒,响应时间:0.78秒 RSA2048 PKCS#7 Attached带原文的验签运算性能:1,500次/秒,响应时间:0.025秒 RSA2048...

什么是Deepytorch Training(训练加速)

Deepytorch Training是阿里自研的AI训练加速,为生成式AI和大模型场景提供训练加速功能。本文主要介绍Deepytorch Training在训练加速上的概念、优势及特性。Deepytorch Training介绍 Deepytorch Training面向生成式AI和大模型场景,...

什么是AI通信加速库Deepnccl

Deepnccl是为阿里神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍Deepnccl的架构、优化原理和性能说明。产品简介 Deepnccl基于NCCL(NVIDIA Collective ...

使用eGPU Kubernetes组件

eGPU是容器虚拟化方案,可直接用于支持原生资源平台,为大规模集群提供GPU共享能力。为了在Kubernetes集群中使用eGPU共享GPU资源,需要通过以下步骤安装eGPU device plugin使能GPU虚拟化的调度能力。前提条件 Docker推荐19.03.5及以上...

计费概述

无影Flow 支持 会话时长包计费方式。本文介绍具体的计费公式、计费组成、计费周期和支付方式等。付费方式 无影Flow 支持以下付费方式:会话时长包:一种预付费模式,即先付费再使用。费用=会话时长包规格单价(元/个)×会话时长包数量...

DescribeInstanceTypes-查询云服务器ECS提供的实例...

调用DescribeInstanceTypes查询云服务器ECS提供的所有实例规格的信息,也可以查询指定实例规格的信息。接口说明 调用接口前,您需要注意:MaxResults(每页最大条目数)参数的最大值为 100,对于在 2022 年调用过本 API 的用户,MaxResults...

GPU实例上使用RAPIDS加速机器学习任务

RAPIDS预装镜像已经发布到阿里镜像市场,创建GPU实例时,您可以在镜像市场中搜索 NVIDIA RAPIDS 并使用RAPIDS预装镜像。说明 该RAPIDS预装镜像使用Ubuntu 16.04 64-bit操作系统。NGC(全称NVIDIA GPU CLOUD)是NVIDIA推出的一套深度学习...

什么是轻量应用服务器

轻量应用服务器(Simple Application Server)是可以快速搭建且易于管理的轻量级云服务器,面向单台服务器提供了一键部署应用、一站式域名解析、安全管理以及运维监控等服务。轻量应用服务器操作简单便捷,能让您快速上手部署简单的应用。...

GPU实例上配置eRDMA

弹性网卡(Elastic Network Interfaces,简称ENI)是专有网络VPC中的虚拟网络接口,用于连接云服务器与专有网络。更多信息,请参见 弹性网卡概述。弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA)是阿里提供的低延迟、大...

GPU实例上部署eRDMA容器镜像

本文介绍如何在GPU实例上使用eRDMA容器镜像。背景信息 如果您的业务需要大规模RDMA的网络服务能力,您可以在支持eRDMA能力的GPU实例规格上(目前仅ebmgn7ex和ebmgn7ix实例支持配置eRDMA功能),通过创建挂载支持弹性RDMA能力的网卡来实现。...

授权信息

访问控制(RAM)是阿里提供的管理用户身份与资源访问权限的服务。使用RAM可以让您避免与其他用户共享阿里账号密钥,并可按需为用户授予最小权限。RAM中使用权限策略描述授权的具体内容。本文为您介绍 服务器迁移中心(SMC)为RAM权限...

实例规格族

trans 视觉计算型实例规格族ebmgi6s GPU计算型实例规格族gn5 GPU计算型实例规格族gn5i 弹性裸金属服务器规格族群 推荐 其他在售(如果售罄,建议使用推荐规格族)GPU计算型弹性裸金属服务器实例规格族ebmgn7ex GPU计算型弹性裸金属服务器...

升级Tesla或GRID驱动

如果您的NVIDIA Tesla或NVIDIA GRID驱动版本已不适用于当前场景,或者您安装了错误的驱动类型或版本导致GPU实例无法使用,您可以通过卸载当前驱动再安装所需驱动的方式,完成Tesla或GRID驱动的升级操作。升级NVIDIA Tesla 驱动 升级Tesla...

命令行使用说明

您可以通过FastGPU的命令行,快速地部署GPU集群,管理资源的生命周期。还可以便捷地为集群安装深度学习环境,在集群运行代码,查看运行日志以及释放资源。前提条件 客户端已安装Python 3.6或以上版本。说明 您的ECS实例、本地机器、...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
GPU云服务器 轻量应用服务器 云服务器 ECS 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用