休眠实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。如果您在某个时间段内无需运行ECS实例,也不会执行某些操作(如升降配等),建议您休眠ECS实例。相比停止实例,休眠实例后再次启动实例,ECS实例会自动恢复至休眠前...

产品优势

使用EAIS实例:您只需要购买如下计算资源:产品 实例规格 指标数据 云服务器ECS ecs.r6.6xlarge 24 vCPU 192 GiB 弹性计算加速实例EAIS eais.ei-a6.4xlarge 16 TFLOPS/FP32,32 GB/显存 综上所述,如果您购买GPU实例,则只能在已有的固定...

概览

无论您的主机是云服务器ECS,还是其他厂商的虚拟机或物理机,都可以使用监控的主机监控功能。目前监控仅支持为Linux和Windows操作系统的主机安装插件。应用场景 您可以使用主机监控功能查询主机的资源使用情况和故障指标。主机监控的...

GPU自助诊断

ECS管理控制台支持配置 GPU设备健康检查 功能,通过该功能可以对当前实例的GPU卡状态或驱动状态进行全方位诊断,方便您自行诊断当前实例的GPU卡或驱动是否存在异常,帮助您及时发现和解决存在的常见问题。前提条件 已创建GPU实例且该实例...

什么是GPU容器共享技术cGPU

GPU容器共享技术cGPU是阿里基于内核虚拟GPU隔离的容器共享技术。即多个容器共享一张GPU卡,从而实现业务的安全隔离,提高GPU硬件资源的利用率并降低使用成本。为什么选择cGPU 兼容性好 不仅适配标准的Docker和Containerd工作方式,而且还...

智能水位分析支持的产品及其监控项

产品 MetricName 选取的统计列 云服务器ECS cpu_total Average memory_usedutilization Average networkin_rate Average networkout_rate Average diskusage_used Average diskusage_utilization Average gpu_gpu_usedutilization ...

ACK灵骏集群计费说明

产品名称 开通类型 产品说明 是否支持包年包月 是否支持资源包 计费说明 ECS云服务器 必选项 用于为ACK集群创建节点。更多信息,请参见 什么是云服务器ECS。不支持 不支持 计费概述 VPC专有网络 必选项 用于构建集群网络环境和路由规则。...

通过Docker安装并使用cGPU服务

该服务作为阿里容器服务Kubernetes版ACK(Container Service for Kubernetes)的组件对外提供服务,本文介绍如何通过Docker安装并使用cGPU服务。前提条件 在进行本操作前,请确保GPU实例满足以下要求:GPU实例规格为gn7i、gn6i、gn6v、gn...

块存储概述

块存储是阿里云服务器ECS提供的块设备产品,具有高性能和低时延的特点,支持随机读写,满足大部分通用业务场景下的数据存储需求。您可以像使用物理硬盘一样,在云服务器ECS上进行格式化并建立文件系统来使用块存储。本文介绍块存储的...

GPU计算型实例中安装Tesla驱动(Windows)

在深度学习、AI等通用计算业务场景下,安装了Tesla驱动的GPU才能发挥高性能计算能力。本文为您介绍为Windows系统的GPU计算型实例手动安装Tesla驱动的方法。操作步骤 说明 本文适用于所有Windows系统GPU计算型实例,更多信息,请参见 GPU...

卸载GRID驱动

警告 GPU实例必须配备了相关驱动才可以正常使用,如果您因某种原因需要卸载当前驱动,请务必再安装与您实例规格及操作系统相匹配的正确驱动,否则会因GPU实例与安装的驱动不匹配而造成业务无法正常进行的风险。在Windows操作系统中卸载GRID...

GPU实例上使用RAPIDS加速图像搜索任务

本文案例为单机单卡的版本,即一台GPU实例搭载一块GPU卡,并且在阿里gn6v(NVIDIA Tesla V100)实例上执行。执行案例后,对比了GPU加速的RAPIDS cuml KNN与CPU实现的scikit-learn KNN的性能,可以看到GPU加速的KNN向量检索速度为CPU的近...

产品优势

对比项 弹性容器实例 云服务器ECS 弹性裸金属服务器 成本 只为Pod付费,节约成本。为ECS整体付费。为裸金属服务器整体付费。运维 无需管理节点,运维简单,成本低。需要自行管理节点,运维ECS。需要自行管理节点,运维裸金属服务器。性能 ...

【公告】GRID驱动变更通知

尊敬的阿里用户,NVIDIA将于2023年7月31日后不再对FLS GRID License提供技术支持,且阿里采购的FLS GRID License也将于2023年9月底到期,为了您的业务不受GRID驱动变更影响,建议您尽快将目前使用的GPU图形加速驱动(采用FLS GRID ...

GPU实例(计算型和虚拟化型)中安装GRID驱动...

在OpenGL、Direct3D、游戏等图形加速/图形渲染场景下,安装了GRID驱动的GPU可有效提高图形渲染效率和性能。本文为您介绍通过助手方式在GPU实例(计算型和虚拟化型)中安装GRID驱动(Windows)的方法。说明 创建GPU实例时会默认预装...

安装CUDA

如果您想要在GPU云服务器上进行GPU加速计算任务(例如科学计算或大规模并行计算等),则需要安装CUDA开发运行环境。CUDA提供了一整套工具和库,可以帮助您进行GPU加速的程序开发,以充分发挥NVIDIA GPU的计算潜力,提高计算性能和加速运行...

安装并使用Deepnccl

Deepnccl是为阿里神龙异构产品开发的用于多GPU互联的AI通信加速库,能够无感地加速基于NCCL通信算子调用的分布式训练或多卡推理等任务。本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用Deepnccl的操作方法。前提条件 已创建...

什么是Deepytorch

Deepytorch是阿里自研的AI加速,为生成式AI和大模型场景提供训练和推理加速功能。在训练方面,Deepytorch在保障精度的前提下实现端到端训练性能的显著提升,可降低训练成本,提升迭代速度。在推理方面,Deepytorch通过即时编译技术对...

GPU计算型实例中安装Tesla驱动(Linux)

在深度学习、AI等通用计算业务场景或者OpenGL、Direct3D、游戏等图形加速场景下,安装了Tesla驱动的GPU才可以发挥高性能计算能力,或提供更流畅的图形显示效果。如果您在创建GPU计算型实例(Linux)时未同时安装Tesla驱动,则需要在创建...

什么是集群极速部署工具FastGPU

FastGPU介绍 FastGPU作为衔接您的线下人工智能算法和线上阿里海量GPU计算资源的关键一环,方便您将人工智能计算任务构建在阿里的IaaS资源上。使用FastGPU构建人工智能计算任务时,您无需关心IaaS层的计算、存储、网络等资源部署操作,...

升级Tesla或GRID驱动

升级GRID驱动(Windows)适用实例 仅以下Windows GPU实例规格族支持通过助手升级GRID驱动:Windows系统GPU虚拟化型实例:vgn6i-vws、vgn7i-vws、sgn7i-vws Windows系统GPU计算型实例:gn7i、gn6i、ebmgn7i、ebmgn6i 操作步骤 下文以一台...

什么是AI分布式训练通信优化库AIACC-ACSpeed

上图中,GPU0~GPU3或者GPU4~GPU7的各卡之间相互通过PCIe Bridge连接(PIX),而GPU0到GPU4~GPU7、GPU1到GPU4~GPU7、GPU2到GPU4~GPU7、GPU3到GPU4~GPU7之间需要通过socket之间的QPI/UPI接口连接(SYS)。优化方法 在原生NCCL通信库中,默认...

节点池概述

关于云服务器计费详情,请参见 云服务器ECS产品计费。关于弹性伸缩组的计费详情,请参见 弹性伸缩产品计费。说明 如果您期望修改节点池中已有节点的付费类型,请登录 ECS管理控制台 修改。具体操作,请参见 按量付费转包年包月。节点池相关...

在Serverless集群中提交作业

创建RAM角色时,可信实体类型为 阿里云服务,角色类型为 普通服务角色,受信服务为 云服务器;为角色授权时,请选择 AliyunOSSFullAccess 权限策略。NAS Volume Mount Path:挂载到容器的目录。NAS Mount Target:NAS的挂载点地址。NAS ...

GPU实例上配置eRDMA

弹性网卡(Elastic Network Interfaces,简称ENI)是专有网络VPC中的虚拟网络接口,用于连接云服务器与专有网络。更多信息,请参见 弹性网卡概述。弹性RDMA(Elastic Remote Direct Memory Access,简称eRDMA)是阿里提供的低延迟、大...

什么是Deepytorch Training(训练加速)

Deepytorch Training是阿里自研的AI训练加速,为生成式AI和大模型场景提供训练加速功能。本文主要介绍Deepytorch Training在训练加速上的概念、优势及特性。Deepytorch Training介绍 Deepytorch Training面向生成式AI和大模型场景,...

【公告】vgn5i和vgn6i停售通知

升配完成后,您可以通过助手或者更换镜像方式将实例的GRID驱动升级为SWL GRID驱动,更多信息,请参见 GPU虚拟化型实例规格族vgn5i/vgn6i。重要 自vgn5i和vgn6i实例升配日起到2024年2月1日期间,您可以通过 请 提交工单 获取代金券,用于...

什么是AI通信加速库Deepnccl

Deepnccl是为阿里神龙异构产品开发的一种用于多GPU互联的AI通信加速库,在AI分布式训练或多卡推理任务中用于提升通信效率。本文主要介绍Deepnccl的架构、优化原理和性能说明。产品简介 Deepnccl基于NCCL(NVIDIA Collective ...

使用限制

函数计算访问其他云服务资源限制 如果您所在地域的 函数计算 已经开通访问VPC内的资源的功能,那么您的函数调用其他云服务资源时,会受到以下网络限制。无法使用经典网络下ECS的内网IP地址访问其服务器上的资源,例如Web服务或者...

卸载Tesla驱动

警告 GPU实例必须配备了相关驱动才可以正常使用。如果您因某种原因需要卸载当前驱动,请务必再安装与您实例规格及操作系统相匹配的正确驱动,否则会因GPU实例与安装的驱动不匹配而造成业务无法正常进行的风险。在Windows操作系统中卸载...

DescribeInstanceTypes-查询云服务器ECS提供的实例...

调用DescribeInstanceTypes查询云服务器ECS提供的所有实例规格的信息,也可以查询指定实例规格的信息。接口说明 调用接口前,您需要注意:MaxResults(每页最大条目数)参数的最大值为 100,对于在 2022 年调用过本 API 的用户,MaxResults...

什么是计算优化编译器AIACC-AGSpeed

AIACC-AGSpeed(AIACC 2.0-AIACC Graph Speeding)是阿里推出的一个基于PyTorch深度学习框架研发的计算优化编译,用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,相比原始的神龙AI加速引擎AIACC,AIACC-AGSpeed是...

资源使用优化

块存储 是阿里云服务器ECS提供的块设备产品,具有高性能和低时延的特点,支持随机读写,满足大部分通用业务场景下的数据存储需求。您可以像使用物理硬盘一样格式化并建立文件系统来使用块存储。阿里文件存储NAS是可以提供共享访问,...

扩缩容节点池

关于ebmgn7e,请参见 GPU计算型弹性裸金属服务器实例规格族ebmgn7e。将ECS实例添加到集群:ESS弹出ECS实例后,实例将自动运行 cloud-init 脚本(由ACK维护),对节点进行初始化,并将节点加入到节点池。运行的日志将保存到节点/var/log/...

安装和使用AIACC-ACSpeed

前提条件 已创建阿里云GPU实例,且GPU实例需满足以下要求:操作系统为Alibaba Cloud Linux、CentOS 7.x、Ubuntu 16.04或以上版本。已安装NVIDIA Driver和CUDA 10.0或以上版本。支持的版本列表 AIACC-ACSpeed(本文简称ACSpeed)v1.1.0支持...

GPU调度概述

共享GPU调度 阿里容器服务Kubernetes版ACK(Container Service for Kubernetes)开源了GPU共享调度之后,您能在阿里、AWS、GCE和自己数据中心的容器集群上通过GPU共享调度框架实现多个容器运行在同一个GPU设备上的目标。ACK开源GPU共享...

共享GPU调度概述

本文为您介绍阿里共享GPU方案、共享GPU专业版的优势、共享GPU的基础版与专业版的功能对比及使用场景,帮助您了解和更好地使用共享GPU的能力。视频介绍 背景介绍 阿里 容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)...

GPU节点调度属性标签

安装原生AI套件的调度组件ack-ai-installer之后,您可以为GPU节点打上调度属性标签,帮助GPU节点启用共享GPU调度、GPU拓扑感知调度等能力。本文介绍GPU节点调度属性标签及如何切换标签的值。GPU节点调度属性标签说明 标签ack.node.gpu....

历史功能发布记录(2022年)

全部 多集群报警差异化配置 2022年10月 功能名称 功能描述 发布地域 相关文档 ACK支持倚天Arm ECS服务器 ACK现已支持倚天ARM云服务器,支持节点池的全生命周期管理,包括节点添加、扩容、升级、删除。同时也支持了多架构镜像的管理,使用...

AIACC-Training常见问题

本章节汇总了使用AIACC-Training时的常见问题。...启动环节异常慢,查看系统的线程数非常多,有大量omp相关的线程 一般情况下,单GPU分配4个以内的omp线程是合适的,设置 export OMP_NUM_THREADS=4 或者更低可以解决此类问题。
共有107条 < 1 2 3 4 ... 107 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
GPU云服务器 智能接入网关 云数据库 RDS 弹性公网IP 短信服务 人工智能平台 PAI
新人特惠 爆款特惠 最新活动 免费试用