安装和使用AIACC-ACSpeed

前提条件 已创建阿里云GPU实例,且GPU实例需满足以下要求:操作系统为Alibaba Cloud Linux、CentOS 7.x、Ubuntu 16.04或以上版本。已安装NVIDIA Driver和CUDA 10.0或以上版本。支持的版本列表 AIACC-ACSpeed(本文简称ACSpeed)v1.1.0支持...

基于AIACC加速快速实现LLaMA-7B指令微调

什么是AI分布式训练通信优化库AIACC-ACSpeed AGSpeed AIACC-AGSpeed(简称AGSpeed)是阿里推出的一个基于PyTorch深度学习框架研发的计算优化编译,用于优化PyTorch深度学习模型在阿里云GPU异构计算实例上的计算性能,可以实现计算优化...

历史功能发布记录(2023年)

1(武汉)本地地域 开服地域 原生AI套件 ack-ai-installer组件发布v1.8.7版本 ack-ai-installer组件结合ACK Scheduler提供共享GPU调度、GPU拓扑感知调度等能力,在v1.8.7版本中,新增支持MPS的共享GPU调度,同时所结合的阿里云GPU容器...

使用AIACC-Training(AIACC训练加速)加速BERT Fine...

本文适用于自然语言训练场景,例如,通过使用GPU云服务器和极速型NAS训练BERT Finetune模型,同时使用AIACC-Training(AIACC训练加速)进行该模型的训练加速,可有效加快多机多卡的训练速度,提升模型的训练效率和性能。说明 BERT...

ack-ai-installer

在共享GPU调度的基础上,ack-ai-installer(cgpu-installer)还结合了阿里云GPU容器共享技术cGPU,支持GPU显存隔离,使不同的应用程序或进程在GPU内存中相互隔离,避免各个任务之间相互干扰,提高整个系统的性能和效率。同时,ack-ai-...

基本概念

本文汇总使用GPU云服务器过程中涉及的基本概念,方便您查询和了解相关概念。GPU云服务器相关概念 概念 说明 GPU 图形处理器(Graphics Processing Unit)。相比CPU具有众多计算单元和更多的流水线,适合用于大规模并行计算等场景。CUDA ...

PAI-TF概述

警告 公共云GPU服务器即将过保下线,您可以继续提交CPU版本的TensorFlow任务。如需使用GPU进行模型训练,请前往DLC提交任务,具体操作请参见 创建训练任务。背景 TensorFlow是Google最新的开源深度学习计算框架,支持CNN、RNN及LSTM等多种...

安装AIACC-Training

前提条件 已创建阿里云GPU实例,且GPU实例需满足以下要求:操作系统为Alibaba Cloud Linux、CentOS 7.x或Ubuntu 16.04以上版本。已安装NVIDIA Driver和CUDA 10.0或以上版本。背景信息 本文以安装AIACC-Training 1.5.0版本为例,您可以根据...

修复NVIDIA GPU驱动漏洞CVE-2021-1056公告

NVIDIA公布了关于NVIDIA驱动的一个漏洞CVE-2021-1056,该漏洞是NVIDIA GPU驱动程序与设备隔离相关的安全漏洞。Kubernetes集群中如果存在阿里云GPU(EGS)的节点,都有可能存在该漏洞。本文介绍该漏洞的背景信息、影响范围和解决方案。背景...

使用ACK服务实现GPU的成本优化

GPU云服务器 该服务提供了GPU算力的弹性计算服务,具有超强的计算能力,可有效缓解计算压力,提升您的业务效率,帮助您提高企业竞争力。容器服务ACK 该服务提供了高性能且可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理...

什么是推理引擎DeepGPU-LLM

产品简介 DeepGPU-LLM作为阿里开发的一套推理引擎,具有易用性和广泛适用性,旨在优化大语言模型在GPU云服务器上的推理过程,通过优化和并行计算等技术手段,为您提供免费的高性能、低延迟推理服务。DeepGPU-LLM的关联布局图如下所示:...

上云须知

GPU云服务器 是基于GPU应用的计算服务,多适用于AI深度学习、视频处理、科学计算、图形可视化等应用场景。网络规划 容器集群基础设施(云服务器 ECS)的网络类型选择:专有网络VPC或经典网络。专有网络VPC:推荐使用。采用二层隔离,相对...

安装CUDA

如果您想要在GPU云服务器上进行GPU加速计算任务(例如科学计算或大规模并行计算等),则需要安装CUDA开发运行环境。CUDA提供了一整套工具和库,可以帮助您进行GPU加速的程序开发,以充分发挥NVIDIA GPU的计算潜力,提高计算性能和加速运行...

GPU云服务器计费

GPU云服务器计费相关功能与云服务器ECS一致,本文为您介绍GPU云服务器涉及的计费项、计费方式、续费和退费说明等。计费项及其计费方式 一台GPU实例包括计算资源(vCPU、内存和GPU)、镜像、块存储等资源,其中涉及计费的GPU资源如下表所示...

GPU监控

请确保您已在云服务器ECS上安装监控插件。具体操作,请参见 安装监控插件。监控项说明 您可以从GPU、实例和应用分组维度查看GPU相关监控项。GPU的监控项如下表所示。监控项 单位 MetricName Dimensions(Agent)GPU维度解码器使用率%...

使用限制

对于无法购买公网精品带宽的办公网络(原工作区),如果该办公网络下的电脑有公网访问需求,建议您使用 企业网 打通VPC后,自建NAT网关或者代理服务器。产品功能 单个地域下,无影电脑 相关功能限制如下表所示。限制项 配额值 提升...

准实时推理场景

与函数计算同等GPU规格的GPU云服务器单价约为 14元/小时。更多计费详情,请参见 GPU云服务器计费。示例一 假设您的GPU函数一天调用量为3600次,每次为1秒钟,使用4 GB显存规格的GPU实例(模型大小为3 GB左右)。您的日均资源利用率(仅时间...

安装共享GPU调度组件

ACK Pro集群的实例规格架构设置为 GPU云服务器。其他配置,请参见 创建ACK集群Pro版。已获取集群KubeConfig并通过kubectl工具连接集群。使用限制 请勿将共享GPU调度的节点的CPU Policy设置为 static。cGPU服务的隔离功能不支持以UVM的方式...

使用VNC登录实例

无法使用Workbench和第三方远程连接工具(例如PuTTY、Xshell、SecureCRT等)连接实例时,您可以通过VNC远程连接方式登录实例,查看云服务器ECS操作界面的实时状态。重要 自2023年7月10日起,远程连接工具VNC无需单独设置VNC登录密码,即可...

应用场景

无影电脑 可广泛应用于具有高数据安全管控、高性能计算等要求的金融、设计、视频、教育等领域,适用于多种办公场景,如远程办公、多分支机构、安全OA、短期使用、专业制图等。远程办公场景 可以随时随地,通过客户端连接电脑进行办公,...

使用产品前的准备工作

不同模块对资源的依赖 目前数据管理平台不同的功能,需要挂载的资源如下:功能模块 功能描述 所需挂载资源 任务调度 产品上创建的任务发送到计算资源上运行 ACK 容器服务 ECS 云服务器 任务中包含需要使用GPU的算子 GPU 云服务器 ...

应用场景

云服务器ECS具有广泛的应用场景,既可以作为Web服务器或者应用服务器单独使用,又可以与其他阿里云服务集成提供丰富的解决方案。说明 云服务器ECS的典型应用场景包括但不限于本文描述,您可以在使用云服务器ECS的同时发现计算带来的技术...

GPU监控

请确保您已在云服务器ECS上安装监控插件。具体操作,请参见 安装监控插件。监控项说明 您可以从GPU、实例和应用分组维度查看GPU相关监控项。GPU的监控项如下表所示。监控项 单位 MetricName Dimensions(Agent)GPU维度解码器使用率%...

使用FastGPU加速AI训练/推理

选用的产品列表 产品名称 说明 GPU云服务器 该服务提供了GPU算力的弹性计算服务,具有超强的计算能力,可有效缓解计算压力,提升您的业务效率,帮助您提高企业竞争力。对象存储OSS 是一款海量、安全、低成本、高可靠的存储服务,多种存储...

阿里电子政务产品全家福

免费 GPU云服务器 GPU 云服务器GPU Cloud Computing,GPU)是提供 GPU 算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景。阿里电子政务平台价格是华北2公共同等配置的2倍 ...

云服务使用限制索引

弹性计算 云服务 使用限制 云服务器ECS 使用限制 弹性裸金属服务器 使用限制 FPGA云服务器 使用限制 GPU云服务器 使用限制 存储容量单位包 使用限制 块存储 使用限制 轻量应用服务器 使用限制 专有宿主机 使用限制 批量计算 使用限制 容器...

神行工具包(DeepGPU)计费

使用神行工具包(DeepGPU)本身不需要额外支付费用,您只需要为执行计算任务过程中使用的阿里资源(例如云服务器ECS或文件存储NAS)进行付费。神行工具包中的组件主要包括 AI训练加速器Deepytorch Training、AI推理加速器Deepytorch ...

什么是集群极速部署工具FastGPU

FastGPU介绍 FastGPU作为衔接您的线下人工智能算法和线上阿里海量GPU计算资源的关键一环,方便您将人工智能计算任务构建在阿里的IaaS资源上。使用FastGPU构建人工智能计算任务时,您无需关心IaaS层的计算、存储、网络等资源部署操作,...

安装GPU拓扑感知调度组件

前提条件 已创建ACK Pro集群,且集群的实例规格类型选择为 GPU云服务器。更多信息,请参见 创建Kubernetes托管版集群。获取集群KubeConfig并通过kubectl工具连接集群。系统组件版本满足以下要求。组件 版本要求 Kubernetes 1.18.8及以上...

异构计算集群概述

阿里容器服务ACK支持对各种异构计算资源进行统一调度和运维管理,能够显著提高异构计算集群资源的使用效率。本文介绍阿里容器服务ACK支持的异构计算集群。背景信息 随着5G、人工智能、HPC(High Performance Computing)、边缘计算等...

查看电脑信息

本文为您介绍如何查看电脑的基础信息、配置信息以及计费信息。操作入口 不同客户端的不同版本界面存在差异,请以实际展示信息为准。下文以 Windows客户端 V6.4.0版本为例,为您介绍如何查看电脑的基础信息、配置信息以及计费信息:在待...

灵骏常见问题

适用场景 适用于计算密集、相似度高、多线程并行的高吞吐量运算场景。适用于对响应速度有要求,逻辑复杂的串行运算场景。最适合GPU的计算类型是可以并行完成的计算,您可以使用并行编程方法和GPU加速计算。而神经网络是高度并行的,非常...

应用场景

推荐搭配使用:云服务器 ECS/GPU 服务器 EGS/高性能计算服务(Alibaba Cloud HPC)+容器服务+对象存储 OSS/文件存储 NAS/CPFS 相关文档:PyTorch分布式训练 TensorFlow分布式训练 微服务架构 实现敏捷开发和部署落地,加速企业业务迭代...

导入镜像

如果无影电脑提供的镜像无法满足业务要求,您可以制作自定义镜像并将其导入无影电脑控制台,然后在创建电脑时使用该自定义镜像。本文介绍如何制作自定义镜像并将自定义镜像导入无影电脑。前提条件 如果您是RAM用户,需先联系阿里...

Serverless GPU概述

Serverless GPU是一种新兴的计算GPU服务,它采用了服务器无感知计算的理念,通过提供一种按需分配的GPU计算资源,有效地解决原有GPU长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。本文介绍Serverless GPU的详细...

Serverless GPU概述

Serverless GPU是一种新兴的计算GPU服务,它采用了服务器无感知计算的理念,通过提供一种按需分配的GPU计算资源,有效地解决原有GPU长驻使用方式导致的低资源利用率、高使用成本和低弹性能力等痛点问题。本文介绍Serverless GPU的详细...

快速构建主机监控能力

步骤一:安装监控插件 当您在云服务器ECS控制台上创建阿里主机(ECS实例)后,在监控控制台的 主机监控 列表中会显示该主机,您需要为其安装监控插件,才能对其进行监控。登录 监控控制台。在左侧导航栏,选择 资源监控>主机...

计算资源优化

GPU 云服务器 EGS(Elastic GPU Service):GPU云服务器是基于GPU与CPU应用的计算服务器GPU在执行复杂的数学和几何计算方面有着独特的优势,特别是在浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。GPU的功能特性如下:...

什么是云服务器ECS

云服务器ECS(Elastic Compute Service)是阿里提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效...

应用场景

其中FPGA H.265高清编码、720P节省带宽21.6%,GPU云服务器支持高并发实时视频流5000路以上,并逐步上升到峰值6200路每分钟,且顺利度过洪峰。异构GPU云服务器还参与实时家居渲染图片生成等业务,首次提供了大量算力强劲的ebmgn6v裸金属实例...
共有91条 < 1 2 3 4 ... 91 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
GPU云服务器 批量计算 云工作流 加密服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用