云速搭部署GPU云服务器

通过云速搭实现GPU云服务器的部署,这里使用 ECS 的 UserData 特性自动安装GPU 驱动、AIACC 等组件,减少配置工作量。涉及产品 专有网络VPC GPU云服务器 弹性公网IP 云速搭CADT 方案架构 操作步骤 具体操作步骤请参考《云速搭部署 GPU ...

应用场景

GPU云服务器适用于视频转码、图片渲染、AI训练、AI推理、云端图形工作站等场景,神行工具包(DeepGPU)为了配合GPU云服务器的计算服务增强能力,也适用于所有AI训练场景和AI推理场景。本文主要介绍GPU云服务器和神行工具包(DeepGPU)的...

API参考

如果您熟悉网络服务协议和一种以上编程语言,推荐您调用API管理您的上资源和开发自己的应用程序。GPU云服务器适用的API和云服务器ECS一致,详情请参见 ECS API简介 和 ECS API概览。

准实时推理场景

GPU实例规格 您可以在推理应用场景下,根据业务需要,特别是算法模型所需要的CPU算力、GPU算力与显存、内存、磁盘,选择不同的GPU卡型与GPU实例规格。关于GPU实例规格的详细信息,请参见 实例规格。部署方式 您可以使用多种方式将您的模型...

准实时推理场景

GPU实例规格 您可以在推理应用场景下,根据业务需要,特别是算法模型所需要的CPU算力、GPU算力与显存、内存、磁盘,选择不同的GPU卡型与GPU实例规格。关于GPU实例规格的详细信息,请参见 实例规格。部署方式 您可以使用多种方式将您的模型...

配置共享GPU调度节点选卡策略

配置项 说明 实例规格 架构 选择 GPU云服务器,选择多个GPU实例规格。由于只有在节点有多张GPU卡的情况下,节点选卡策略才能看出效果,建议选择带有多张GPU卡机型。期望节点数 设置节点池初始节点数量。如无需创建节点,可以填写为0。节点...

部署GPU云服务器

请按照标签顺序依次点击 新建>新建空白应用,构建如下图所示的包含GPU云服务器实例的应用架构:本文所选地域为 华北2(北京)可用区H。双击GPU实例,配置相关参数。参考 创建GPU实例,选择对应的实例规格、镜像及版本。需要修改自定义登录...

使用RAPIDS加速机器学习最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速机器学习环境。使用容器服务Kubernetes版部署RAPIDS加速机器学习环境。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务器 该...

使用RAPIDS加速图像搜索最佳实践

方案优势 阿里云GPU云服务器资源丰富,可灵活选择在GPU上搭建RAPIDS加速图像搜索环境。使用容器服务Kubernetes版可快速部署图像搜索环境和分发应用。共享存储NAS可提供强大的存储性能。部署架构图 选用的产品列表 产品名称 说明 GPU云服务...

GPU拓扑感知调度概述

在训练过程中,选择不同的GPU组合,会得到不同的训练速度,因此在GPU的调度过程中,选择最优的GPU组合可以得到最优的训练速度。Kubernetes对节点的GPU拓扑信息不感知,调度过程中对GPU的选择比较随机,选择不同的GPU组合训练速度会存在较大...

GPU调度概述

GPU拓扑感知调度 Kubernetes对节点的GPU拓扑信息不感知,调度过程中对GPU的选择比较随机,选择不同的GPU组合训练速度会存在较大的差异。基于以上问题,ACK基于Scheduling Framework机制,实现GPU拓扑感知调度,在节点的GPU组合中选择具有最...

修改服务器名称

轻量应用服务器支持手动修改服务器的名称,便于您区分和管理不同的服务器。本文介绍如何修改服务器名称。操作步骤 登录 轻量应用服务器管理控制台。在左侧导航栏,单击 服务器。将鼠标悬浮在服务器卡片中的服务器名称上,单击 图标。说明 ...

后端服务器概述

不同的监听可以关联不同的服务器组,这样一个负载均衡实例可以将请求根据不同监听转发给不同的服务器组内不同端口的后端服务器。说明 如果您在配置监听时,选择使用虚拟服务器组或主备服务器组,那么该监听会将请求转发到关联的服务器组中...

轻量应用服务器网速较慢与预期带宽不符

本文介绍轻量应用服务器网速较慢与预期带宽不符的问题描述、问题原因及其解决方案。问题描述 访问阿里轻量应用服务器中的网站或应用,出现网络访问过慢的情况,与设置的预期带宽不符。问题原因 服务器的地域为中国香港。中国内地访问中国...

负载均衡调度算法介绍

优点 灵活性:加权轮询算法可以根据服务器的性能和处理能力设置不同的权重,实现对不同服务器的灵活调度,使得性能较好的服务器能够处理更多的请求。均衡性:加权轮询算法仍然能够保持请求的均衡性,将请求按照权重进行分配,使得各个...

GPU拓扑感知调度

Kubernetes对节点的GPU拓扑信息不感知,调度过程中对GPU的选择比较随机,选择不同的GPU组合训练速度会存在较大的差异。基于以上问题,ACK基于Scheduling Framework机制,实现GPU拓扑感知调度,在节点的GPU组合中选择具有最优训练速度的组合...

什么是AI分布式训练通信优化库AIACC-ACSpeed

NVLink-topo机型 问题分析 以V100 8卡机型的GPU拓扑结构为例,不同的GPU之间连接的nvlink通道数是有区别的(例如NV1或NV2),如下图所示。NCCL经常使用的一种算法是binary-tree(即2-tree),在不同机型拓扑下并不能达到最优。说明 NCCL是...

离线异步任务场景

GPU实例规格 您可以在离线GPU任务应用场景下,根据业务需要,特别是算法模型所需要的CPU算力、GPU算力与显存、内存、磁盘,选择不同的GPU卡型与GPU实例规格。关于GPU实例规格的详细信息,请参见 实例规格。部署方式 您可以使用多种方式将您...

sccgn系列实例使用说明及验证

为进一步优化神龙架构GPU服务器的网络性能,阿里推出了GPU计算型超级计算集群实例规格族,即sccgn系列实例,该系列机型具备了超强的计算能力和网络通信能力。本文为您介绍sccgn系列实例的使用说明及性能验证。使用说明 sccgn系列机型同时...

ALB配置会话保持

部分应用业务场景下需要保持用户会话的状态,例如购物车中的商品、登录信息、用户偏好设置、游戏应用等场景,如果用户的请求被分发到不同的服务器,那么会话状态就会丢失从而导致用户体验问题。当您开启了ALB会话保持功能后,可以使来自同...

GPU集群中加速AI模型训练

本文适用于AI图片的训练场景,使用文件存储CPFS/NAS作为共享存储,使用容器服务Kubernetes版管理GPU云服务器集群实现AI图片的训练加速。方案优势 使用阿里的容器服务ACK可快速搭建AI图片训练基础环境。使用CPFS存储训练数据,支持多个...

GPU云产品选型决策指引

本文介绍如何根据您的业务情况选择不同的GPU云产品以及应用场景。GPU选型指引请参见以下流程图。关于函数计算Serverless GPU的详细应用场景介绍,请参见以下文档:准实时推理场景 实时推理场景 离线异步调用异步任务场景

服务器管理

说明 如果堡垒机无法正常获取您账号中的ECS云服务器列表,请确认您已在 云盾堡垒机管理控制台 中的 实例列表 页面授权堡垒机系统读取ECS列表信息。勾选所需添加的云服务器,单击 加入堡垒机。手动添加服务器 参照以下步骤手动添加...

SSL证书安装指南

具体操作,请参见 产品部署 和 云服务器部署。如果您的阿里产品不在数字证书管理服务支持部署的范围内或需要部署国密证书(仅CDN、DCDN和DDos防护产品支持),请您联系阿里产品对应的商务经理咨询或参考对应的阿里产品帮助文档部署...

通用算力型

本文介绍云服务器ECS通用算力型Universal实例规格族的特点,并列出了具体的实例规格。通用算力型Universal实例(U实例)提供均衡的计算、内存和网络资源,支持多种处理器和多种处理器内存配比。该类型实例依托阿里资源池化技术和智能调度...

远程连接Windows实例失败

问题描述 远程连接Windows实例时失败,安全组正常开放,使用Telnet连接3389端口不通。问题原因 服务器的3389端口监听在IPv6地址上,导致Telnet端口不通。解决方案 说明 如果您对实例或数据有修改、变更等...适用于 云服务器ECS 轻量应用服务器

什么是神行工具包(DeepGPU)

神行工具包(DeepGPU)是阿里专门为GPU云服务器搭配的GPU计算服务增强工具集合,旨在帮助开发者在GPU云服务器上更快速地构建企业级服务能力。GPU云服务器搭配神行工具包(DeepGPU)中的组件可以帮助您更方便地利用阿里上GPU资源,...

使用AIACC-Training(AIACC训练加速)加速BERT Fine...

本文适用于自然语言训练场景,例如,通过使用GPU云服务器和极速型NAS训练BERT Finetune模型,同时使用AIACC-Training(AIACC训练加速)进行该模型的训练加速,可有效加快多机多卡的训练速度,提升模型的训练效率和性能。说明 BERT...

GPU监控

监控通过安装在阿里主机(ECS实例)上的监控插件,采集GPU的监控数据,您还可以为这些监控项设置报警规则。当某个监控项达到报警条件时,会给您发送报警通知,以便您及时关注其动态。前提条件 请确保您已在云服务器ECS上创建GPU计算...

什么是GPU云服务器

对比项 GPU云服务器 GPU自建服务器 灵活性 能够快速开通一台或多台GPU云服务器实例。实例规格(vCPU、内存及GPU)支持灵活变更,并且支持在线升降配。带宽升降自由。服务器购买周期长。服务器规格固定,无法灵活变更。带宽一次性购买,无法...

安装并使用Deepnccl

本文主要介绍在Ubuntu或CentOS操作系统的GPU实例上安装和使用Deepnccl的操作方法。前提条件 已创建阿里GPU实例,且GPU实例的操作系统为Ubuntu或CentOS。安装Deepnccl 根据GPU实例的不同操作系统,安装Deepnccl有所不同,具体操作如下所示...

异构计算产品最佳实践概览

GPU云服务器 搭建Linux环境License Server 使用GRID驱动必须申请相应的License,同时需要将License部署在License Server上,本教程以Ubuntu 18.04操作系统为例,介绍如何搭建Linux操作系统的License Server。搭建Windows环境的License ...

安装CUDA

如果您想要在GPU云服务器上进行GPU加速计算任务(例如科学计算或大规模并行计算等),则需要安装CUDA开发运行环境。CUDA提供了一整套工具和库,可以帮助您进行GPU加速的程序开发,以充分发挥NVIDIA GPU的计算潜力,提高计算性能和加速运行...

重启实例

GPU实例作为云服务器ECS的一类实例规格,保持了与ECS实例相同的管理操作。本文介绍如何通过控制台重启实例。前提条件 待重启的实例必须处于 运行中 状态。背景信息 重启操作是维护云服务器的一种常用方式,如系统更新、重启保存相关配置等...

安装共享GPU调度组件

ACK Pro集群的实例规格架构设置为 GPU云服务器。其他配置,请参见 创建ACK集群Pro版。已获取集群KubeConfig并通过kubectl工具连接集群。使用限制 请勿将共享GPU调度的节点的CPU Policy设置为 static。cGPU服务的隔离功能不支持以UVM的方式...

ECS实例如何升级GPU驱动

概述 本文主要介绍如何升级ECS实例的GPU驱动。详细信息 阿里提醒您:如果您对实例或数据有修改、变更等风险操作,务必注意实例的容灾、容错能力,确保数据安全。如果您对实例(包括但不限于ECS、RDS)等进行配置与数据修改,建议提前创建...

阿里异构计算产品总览

神行工具包(DeepGPU)神行工具包是阿里专门为GPU云服务器搭配的GPU计算服务增强工具集合,用户可以基于IaaS产品快速构建企业级服务能力。目前所有神行工具包中的组件都是免费搭配阿里云GPU服务器使用,帮助用户更方便、更高效地使用阿里...

GPU监控

监控通过安装在阿里主机(ECS实例)上的监控插件,采集GPU的监控数据,您还可以为这些监控项设置报警规则。当某个监控项达到报警条件时,会给您发送报警通知,以便您及时关注其动态。前提条件 请确保您已在云服务器ECS上创建GPU计算...

使用VNC登录实例

无法使用Workbench和第三方远程连接工具(例如PuTTY、Xshell、SecureCRT等)连接实例时,您可以通过VNC远程连接方式登录实例,查看云服务器ECS操作界面的实时状态。重要 自2023年7月10日起,远程连接工具VNC无需单独设置VNC登录密码,即可...

轻量应用服务器之间的数据迁移

如果轻量应用服务器无法通过升级配置满足当前业务需求或者需要将轻量应用服务器迁移至其他地域,您可以将同一阿里账号下待迁移服务器中的网站数据迁移至同地域或者其他地域。本文介绍同地域和跨地域下,迁移轻量应用服务器的操作。前提...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
GPU云服务器 云服务器 ECS 轻量应用服务器 负载均衡 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用