安装和使用Deepytorch Training

Deepytorch Training是阿里自研的AI加速,面向生成式AI和大模型场景,提供了显著的训练加速能力。本文主要介绍安装并使用Deepytorch Training的操作方法。前提条件 已创建阿里云GPU实例,且GPU实例需满足以下要求:操作系统为Alibaba ...

sccgn系列实例使用说明及验证

为进一步优化神龙架构GPU服务器网络性能,阿里推出了GPU计算型超级计算集群实例规格族,即sccgn系列实例,该系列机型具备了超强的计算能力和网络通信能力。本文为您介绍sccgn系列实例的使用说明及性能验证。使用说明 sccgn系列机型同时...

AIACC-ACSpeed体验示例

AIACC-ACSpeed(简称ACSpeed)作为阿里自研的AI训练加速,在提高训练效率的同时能够降低使用成本,可以实现无感的分布式通信性能优化。ACSpeed软件包中已为您提供了适配DDP的示例代码,您可以参考本文快速体验使用ACSpeed进行模型分布...

安装和使用AIACC-AGSpeed

AIACC-AGSpeed(简称AGSpeed)专注于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,可以实现无感的计算优化性能。本文为您介绍安装和使用AGSpeed的方法。前提条件 已创建阿里云GPU实例,且...

一键诊断

您可以使用 PAI灵骏智算服务 提供的一键诊断功能,检查灵骏节点的网络和硬件状态,基于多种通信库和通信模型进行网络测试。本文为您介绍灵骏的一键诊断功能。自助诊断 网络诊断 网络诊断功能分为 静态配置类检查 和 动态运行类检查,支持...

基本概念

它包含了能力单元概念,将计算能力、存储能力或者其他产品的能力,抽象成一个统一的用量单位,包含了CPU、内存、GPU、存储、网络带宽等资源。说明 类似用电的单位——度(千瓦·时),单位时间内消耗的能量;CRU表示了单位时间内消耗的算...

创建Custom Container函数

取值说明如下:处理事件请求:通过定时、调用API/SDK或其他阿里云服务的触发来触发函数执行。处理 HTTP 请求:用于处理HTTP请求或WebSocket请求的函数。如果您的使用场景是Web场景,建议 使用自定义运行时创建。镜像配置:配置创建函数...

安装和使用Deepytorch Inference

Deepytorch Inference是阿里自研的AI推理加速,针对Torch模型,可提供显著的推理加速能力。本文主要介绍安装并使用Deepytorch Inference的操作方法,以及推理效果展示。背景信息 Deepytorch Inference通过调用 deepytorch_inference....

资源配额监控与报警

监控指标及说明 监控指标主要包括CPU、内存、磁盘、网络,以及GPU相关指标,如显存使用率、算力使用率等。当前主要支持节点维度,下面是一些典型的监控指标,全量指标列表及细节说明请参见 PAI-资源配额(Quota)指标列表。监控指标 描述 ...

准备工作

PAI平台镜像:针对特定于阿里云服务的优化和集成,PAI提供了基于不同框架的官方镜像。此类镜像适合在阿里平台上进行训练任务,能够获得更好的兼容性和性能。自定义镜像:如果您的训练任务需要特殊的环境或依赖,您可以创建自定义镜像来...

创建Windows节点池

实例为非GPU云服务器架构。实例规格为4核 8GB及以上。Windows容器在内存使用超出Limitation后并不会执行OOM Killed。自2021年05月起,在v1.16及之后版本的ACK集群,新添加的Windows节点启动时会预留一定的资源(1.5核CPU、2.5 GB RAM、3 GB...

云服务使用限制索引

弹性计算 云服务 使用限制 云服务器ECS 使用限制 弹性裸金属服务器 使用限制 FPGA云服务器 使用限制 GPU云服务器 使用限制 存储容量单位包 使用限制 块存储 使用限制 轻量应用服务器 使用限制 专有宿主机 使用限制 批量计算 使用限制 容器...

使用指定ECS规格运行工作流

在某些场景下,业务存在着特殊的规格需求,例如GPU、增强的网络能力、高主频、本地盘、AMD机型等。工作流集群 支持通过指定的ECS规格运行工作流。本文介绍如何使用指定ECS规格运行工作流。索引 规格说明 GPU规格说明 AMD规格说明 使用示例 ...

上云须知

GPU云服务器 是基于GPU应用的计算服务,多适用于AI深度学习、视频处理、科学计算、图形可视化等应用场景。网络规划 容器集群基础设施(云服务器 ECS)的网络类型选择:专有网络VPC或经典网络。专有网络VPC:推荐使用。采用二层隔离,相对...

DescribeDedicatedHostTypes-查询专有宿主机规格详细...

您可以调用 DescribeRegions 查看最新的阿里地域列表。cn-hangzhou DedicatedHostType string 否 专有宿主机规格。更多详情,请参见 宿主机规格。ddh.sn1ne SupportedInstanceTypeFamily string 否 专有宿主机规格支持的 ECS 实例规格族...

通过指定ECS规格创建ECI Pod

在某些业务场景下,存在着特殊的规格需求,例如GPU、增强的网络能力、高主频、本地盘等。ECI支持通过指定ECS规格进行创建。本文介绍如何通过指定ECS规格创建ECI Pod。规格说明 ECI指定规格完全参考ECS规格定义。ECI单价与对应规格的ECS价格...

产品优势

高可用性 E-HPC集群节点基于云服务器ECS、超级计算集群SCC和GPU云服务器组建,大大提高了集群的可用性。结果可视 E-HPC提供可视化服务功能,您可以通过可视化服务功能将计算结果转换为可读的图形化数据。例如您可以直接观看渲染后的动画...

什么是云服务器ECS

云服务器ECS(Elastic Compute Service)是阿里提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效...

系统监控报警任务

监控客户端(Agent)CPU使用率 CpuUtilizationAgent%15秒 1分钟 2分钟 5分钟 15分钟 专有网络、经典网络(Agent)GPU使用率 GpuUtilizationAgent%专有网络、经典网络(Agent)GPU内存空闲率 GpuMemoryFreeUtilizationAgent%专有网络、...

查询网络通信距离(NCD)

PAI灵骏提供了统一的网络通信距离NCD(Network Communication Distance)查询接口,供您对GPU节点(或网卡)间的通信距离进行查询,以实现更优的任务调度,获得最佳的训练性能。本文为您介绍NCD的基本概念、使用NCD的原因以及如何使用NCD。...

镜像商品的版本管理

可以不做设置,不设置代表该镜像运行可以支持1核及以上GPU云服务器 内存配置 不做设置 0.5 GiB – 1024 GiB 可以不做设置,不设置代表该镜像部署和运行可以支持0.5GiB及以上内存的云服务器 VPC专有网络是否支持多网卡 支持 支持和不支持...

在企业级实例上配置eRDMA

弹性网卡(Elastic Network Interfaces,简称ENI)是专有网络VPC中的虚拟网络接口,用于连接云服务器与专有网络。更多信息,请参见 弹性网卡概述。弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA)是阿里提供的低延迟、大...

创建弹性裸金属服务器实例

背景信息 创建弹性裸金属服务器实例和创建普通云服务器实例的步骤类似,本文仅介绍弹性裸金属特有的基本配置项,如果您想了解其他通用配置,请参见 自定义购买实例。操作步骤 登录 ECS管理控制台。在左侧导航栏,选择 实例与镜像>实例。...

NVMe协议介绍

机器学习 机器学习是另一个共享盘典型应用场景,在将样本标注写入后,会将数据拆分给多个节点进行神经网络的分布式计算,特别是在以GPU为计算资源的高性能机器学习场景,慢速存储很可能成为整个系统的瓶颈,此时利用NVMe共享盘的高性能,...

云服务器ECS对比

如果您需要使用更丰富的实例类型,如通用型、计算型、大数据型、弹性裸金属服务器GPU/FPGA/NPU异构计算型等,支持高并发网站、视频编解码、大型游戏、复杂分布式集群应用等业务场景,请使用云服务器ECS产品。关于云服务器ECS的更多实例...

弹性加速计算实例EAIS安全性说明

弹性加速计算实例EAIS的上安全性,是阿里在面对当前的网络安全形势和挑战时所采取的措施,以及提高用户在资源和网络访问控制、EAIS资源操作、故障隔离和风险检测等方面的安全性所具备的能力。说明 通过在ECS实例(非GPU实例)上绑定...

计算资源优化

GPU 云服务器 EGS(Elastic GPU Service):GPU云服务器是基于GPU与CPU应用的计算服务器GPU在执行复杂的数学和几何计算方面有着独特的优势,特别是在浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。GPU的功能特性如下:...

什么是无影电脑(专业版)

无影电脑(专业版)与 云服务器 ECS 的异同 比较项 无影电脑(专业版)云服务器 概念 无影电脑(专业版)是一种基于计算的上桌面服务,采用桌面即服务DaaS(Desktop as a Service)为您提供易用、安全、高效的上桌面办公系统。...

产品规格

弹性裸金属服务器 实例类型 实例规格 计算配置 网络配置 存储配置 推荐应用场景 高主频 ecs.ebmhfc6.20xlarge 处理:3.1 GHz主频的Intel ® Xeon ® Platinum 8269(Cascade Lake)vCPU:80 内存:384GiB GPU:无 以太网:30Gbit/s 高效...

常用操作导航

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的操作方式。在使用云服务器ECS时,您可能会遇到各种问题,例如远程连接、更换操作系统、扩容盘、升高或降低实例配置、使用快照或镜像等。本文介绍了云服务器ECS的常用操作,...

搭建Windows环境GRID驱动的License Server

然后使用您的GPU或vGPU实例,通过网络访问License Server激活GRID License。步骤一:创建ECS实例 创建一台Windows操作系统的ECS实例作为License Server。具体操作,请参见 自定义购买实例。您需要关注如下配置项,其他配置项根据自身业务...

连接方式概述

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的连接方式。ECS支持通过多种方式连接实例,包括阿里提供的连接工具(例如Workbench、VNC等)和第三方客户端工具。您可以综合考虑目标实例的操作系统、本地设备的操作系统、...

搭建Linux环境GRID驱动的License Server

步骤七:测试网络连接和访问 以下操作以创建一台Windows操作系统的GPU虚拟化实例vgn6i为例,您也可以直接应用您已创建的GPU实例。创建一台GPU实例。具体操作,请参见 创建未配备驱动的GPU实例。本示例选择的实例规格为GPU虚拟化实例vgn6i,...

应用场景

推荐搭配使用:云服务器 ECS/GPU 服务器 EGS/高性能计算服务(Alibaba Cloud HPC)+容器服务+对象存储 OSS/文件存储 NAS/CPFS 相关文档:PyTorch分布式训练 TensorFlow分布式训练 微服务架构 实现敏捷开发和部署落地,加速企业业务迭代...

附录一:运维服务产品清单

fc 计算基础 弹性计算 弹性高性能计算 ehpc 计算基础 弹性计算 GPU云服务器 ecsgpu 计算基础 弹性计算 容器镜像服务 acr 计算基础 弹性计算 弹性裸金属服务器 xdragon 计算基础 弹性计算 超级计算集群 scc 计算基础 弹性计算 ...

在ACK集群上使用eRDMA

弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA),是阿里提供的低延迟、大吞吐、高弹性的高性能RDMA网络服务。eRDMA是基于第四代神龙系统架构和上VPC网络、100%兼容RDMA生态、提供超大规模网络部署的ECS普惠RDMA服务。...

什么是容器服务 Kubernetes 版

大类 关联产品说明 计算 云服务器ECS、弹性裸金属EBM、GPU云服务器:提供节点池工作节点。弹性容器实例ECI:提供 ACK Serverless集群 的容器实例。弹性伸缩ESS:支持节点池的配置和弹性伸缩。网络 专有网络VPC:提供集群私网网络。负载均衡...

停止实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。本文介绍停止ECS实例,以及VPC内实例节省停机模式相关操作。前提条件 实例必须处于 运行中 状态。警告 停止实例会中断您的业务,请谨慎执行。停止包年包月实例 说明...

使用限制

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的使用限制。本文介绍云服务器ECS在产品功能和服务性能上的不同限制,以及如何申请更高配额。限制概述 使用云服务器ECS有下列限制:仅弹性裸金属服务器和超级计算集群支持二次...

支持的产品

table VPC级 弹性计算 15款 云服务器ECS 可用区级 部署集ecs_deploymentset 区域级 弹性裸金属服务器(神龙)xdragon 可用区级 GPU云服务器 可用区级 FPGA云服务器 可用区级 专有宿主机DDH 可用区级 弹性伸缩 ESS VPC级 无影桌面 区域级 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
弹性公网IP 高速通道 NAT网关 共享流量包 负载均衡 短信服务
新人特惠 爆款特惠 最新活动 免费试用