创建GPU集群

容器服务 Kubernetes 版支持对各种型号的计算型GPU资源进行统一调度和运维管理,能够显著提高GPU集群资源的使用效率。本文介绍如何创建GPU集群及查看节点挂载的GPU设备。前提条件 已创建ACK Pro版集群 或 已创建ACK专有版集群。创建GPU节点...

GPU集群中加速AI模型训练

本文适用于AI图片的训练场景,使用文件存储CPFS/NAS作为共享存储,使用容器服务Kubernetes版管理GPU云服务器集群实现AI图片的训练加速。方案优势 使用阿里的容器服务ACK可快速搭建AI图片训练基础环境。使用CPFS存储训练数据,支持多个...

开启集群GPU监控

前提条件 已创建托管GPU集群或专有GPU集群。具体操作,请参见 创建GPU集群 或 创建专有GPU集群。已开通ARMS。具体操作,请参见 开通ARMS。背景信息 对运维人员来说,实现对Kubernetes的大规模GPU设备可监测能力至关重要。通过监测GPU相关...

ACK集群实现GPU AI模型训练

场景描述 本方案适用于AI图片训练场景,使用CPFS和NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行图片AI训练。解决问题 搭建AI图片训练基础环境。使用CPFS存储训练数据。使用飞天AI加速训练工具加速训练。使用Arena一...

监控集群GPU资源最佳实践

前提条件 已创建Kubernetes集群(ACK专有版集群、ACK集群基础版、ACK集群Pro版 或 ACK Edge集群),本文以 ACK集群Pro版 为例。已安装GPU监控2.0相关组件。具体操作,请参见 开启集群GPU监控。背景信息 GPU监控2.0支持对集群GPU节点进行全...

使用阿里Prometheus监控集群GPU资源

前提条件 您已完成以下操作:创建GPU集群 或 创建专有GPU集群。开通 阿里Prometheus服务。已安装阿里Prometheus监控。具体操作,请参见 阿里Prometheus监控。费用说明 在ACK集群中使用 ack-gpu-exporter 组件时,默认情况下它产生的...

ACK专有版集群迁移至ACK集群Pro版后升级共享GPU组件

ACK专有版集群 安装的共享GPU组件在 ACK集群Pro版 中无法正常使用,需在 ACK集群Pro版 中升级相关组件,以实现GPU的调度和隔离。本文介绍如何在 ACK集群Pro版 中升级共享GPU组件。前提条件 已将 ACK专有版集群 迁移至 ACK集群Pro版 中,且...

Kubernetes集群GPU问题诊断

恢复方案 快速恢复集群可调度GPU卡数量 如果某个节点的GPU出现问题,那么需要删除该节点上运行的device plugin Pod,然后Kubernetes会自动重新启动一个Nvidia device plugin Pod。使用kubectl delete po[$POD_NAME]-n kube-system命令完成...

ACK集群实现GPU成本优化

通过使用阿里cGPU技术,您可以将GPU利用率不高的应用容器化部署在一块GPU卡上,实现资源利用率提升并且降低成本,且保持对高负载应用的资源保障。背景信息 阿里云GPU团队推出了昊天cGPU方案:通过一个内核驱动,为容器提供了虚拟的GPU...

什么是集群极速部署工具FastGPU

在FastGPU即刻构建计算任务阶段:在开发主机上通过FastGPU一键部署集群,创建出任务所需的资源,包括计算资源(CPU、GPU)、存储资源(盘、NAS文件系统等)、交互式资源(Tmux、Tensorboard)等。自动启动分布式训练任务,在训练过程中...

在ACK专有版集群中使用共享GPU调度

如您需要在 ACK专有版集群 中使用共享GPU调度基础版,请参见...基础版迁移专业版 安装共享GPU调度组件 运行共享GPU调度组件 使用共享GPU调度实现仅共享不隔离能力 使用共享GPU调度实现cGPU算力分配策略 解决专业版集群升级共享GPU调度失效问题

异构计算产品最佳实践概览

GPU AI模型训练最佳实践 适用于AI图片训练场景,使用CPFS/NAS作为共享存储,利用容器服务Kubernetes版管理GPU云服务器集群进行AI图片训练。在GPU实例上使用RAPIDS加速机器学习任务 在GPU实例上基于NGC环境使用RAPIDS加速库,加速数据科学和...

通过注册集群实现IDC中K8s集群以Serverless方式使用...

索引 背景信息 前提条件 使用场景 步骤一:安装相关组件 步骤二:查看节点 步骤三:使用Serverless ECI运行Pod(CPU和GPU任务)步骤四:使用多级弹性调度 背景信息 为IDC中K8s集群直接添加上节点或GPU节点的方式,适用于需要自定义配置的...

更新ACK集群GPU虚拟化型(vGPU)实例的NVIDIA驱动...

如果集群中存在vGPU实例类型的节点,您需要购买NVIDIA官方提供的GRID License,且自建License服务器该节点才能正常工作。本文介绍如何更新ACK集群中vGPU实例的NVIDIA驱动License。前提条件 购买相应的License,更多信息,请参见 NVIDIA ...

API参考

如果您熟悉网络服务协议和一种以上编程语言,推荐您调用API管理您的上资源和开发自己的应用程序。GPU云服务器适用的API和云服务器ECS一致,详情请参见 ECS API简介 和 ECS API概览。

阿里异构计算产品总览

GPU云服务器 GPU云服务器是基于GPU应用的计算服务器GPU在执行复杂的数学和几何计算方面有着独特的优势。特别是浮点运算、并行运算等方面,GPU可以提供上百倍于CPU的计算能力。作为阿里弹性计算家族的一员,GPU云服务器结合了GPU计算力...

使用ACK服务实现GPU的成本优化

利用阿里容器服务ACK部署GPU集群后,出于成本优化考虑,针对集群中GPU利用率不同的应用,选择不同的成本优化方案,可以实现集群的灵活管理,同时整体降低成本。例如,对于集群中GPU利用率不高的应用(例如推理应用),建议选择cGPU技术将...

常见问题FAQ

基本问题 Q:数据库专属集群MyBase 是什么意思?它和RDS数据库的区别是什么?A:数据库专属集群MyBase 是由多台主机(底层服务器,如ECS I2服务器、神龙服务器)组成的集群,详情请参见 常见术语。相比直接使用RDS 或Redis 实例,专属...

Tesla或GRID驱动安装指引

GPU实例本身并未配备相关驱动,只有安装了驱动的GPU实例,才能实现计算加速或图形渲染等功能。根据不同GPU实例规格安装与之匹配的Tesla或GRID驱动,...如果GPU实例安装驱动后,在使用过程中遇到黑屏或其他问题,请参见 GPU云服务器常见问题。

产品优势

高可用性 E-HPC集群节点基于云服务器ECS、超级计算集群SCC和GPU云服务器组建,大大提高了集群的可用性。结果可视 E-HPC提供可视化服务功能,您可以通过可视化服务功能将计算结果转换为可读的图形化数据。例如您可以直接观看渲染后的动画...

集群报警差异化配置

如下示例中,ack-cluster-1 为CPU集群,ack-cluster-2 为GPU集群,该示例可实现对 ack-cluster-2 即GPU集群的差异化配置,包括开启GPU报警、修改报警阈值和告警联系人。apiVersion:core.oam.dev/v1alpha1#定义分发目标集群,使用Cluster ID...

全球数据库常见问题

什么是GDN集群跨地域延迟?GDN集群跨地域延迟的详情介绍请参见 跨地域低延时同步。说明 GDN网络中所有集群的数据保持同步,网络中每个集群均提供读写服务,并且提供异地灾备能力。跨地域写数据会受一定的网络延迟影响,GDN网络做了特殊优化...

基于GPU指标实现弹性伸缩

前提条件 您已 创建GPU集群 或已 创建专有GPU集群。功能介绍 在高性能计算领域,例如深度学习模型训练、推理等场景,通常需要使用GPU来做计算加速。为了节省成本,您可以根据GPU指标(利用率、显存)来进行弹性伸缩。Kubernetes默认提供CPU...

解绑集群

说明 解绑集群是高危操作,会导致当前环境不可用,请谨慎操作。集群解绑后如想继续使用,可通过集群导入操作将集群加入当前工作空间,详情请参见 导入集群。前提条件 已导入集群。您拥有 LHC 管理员权限。操作步骤 登录 LHC 控制台。在左侧...

切换部署方案

当前集群是标准版(盘)或标准版(Key-Value)系列。当前集群的数据库版本是 V3.x 及之后版本。当前集群未开通数据库代理服务 2.0 版本。操作步骤 登录 OceanBase 管理控制台。在左侧导航栏中,单击 实例列表。在实例列表中找到目标集群...

扩容

本文介绍流数据服务Confluent如何扩容。...登录进入集群Control Center页面,导航至Cluster Settings>Broker defaults页面,查看增加的broker信息(注:如果初始购买的集群是多AZ的,那么新扩容的broker也按照多AZ的方式均匀分布)。

功能特性

分布式容器平台ACK One 分布式容器平台ACK One(Distributed Cloud Container Platform for Kubernetes)是阿里面向混合、多集群、分布式计算、容灾等场景推出的企业级原生平台。ACK One可以连接并管理您任何地域、任何基础设施...

创建集群

ACK灵骏集群 容器服务 Kubernetes 版 ACK 针对智能计算灵骏提供的集群类型,帮助您管理异构资源、调度异构任务,为AI训练、大模型推理等高性能计算场景提供异构计算算力服务。前提条件 已登录 RAM管理控制台 和 弹性伸缩控制台 开通相应...

使用控制台创建ECS集群

ECS集群是EDAS为应用提供的ECS部署环境。如果您存在大量非容器化应用并对单体性能和稳定性有极高要求,可以将应用托管至EDAS的ECS集群中。本文介绍如何在EDAS控制台创建ECS集群。前提条件 如果您要在专有网络VPC中创建ECS集群,请确保已...

续费流程

背景信息 只有包年包月集群才需要进行续费操作,按量集群是实时结算的。DDI续费方式包括手动续费和自动续费两种。前提条件 请确认包年包月集群还未到期。您可以在集群管理页面,在付费类型列将鼠标悬浮至图标,查看集群的到期时间。注意...

激活一体机

2 创建边缘集群 集群是负责管理边缘资源,完成项目整个实施,需要先创建集群。在物联网应用服务平台页面,点击应用集群。如下图所示:进入 边缘集群-自有集群,点击 创建自有集群,如下图所示:创建集群方法如下:集群名称:集群命名规则为...

混合代理模式最佳实践

相关参考如下:高速通道:通过物理专线实现本地IDC与上VPC互通 智能接入网关:SAG APP快速入门 VPN网关:IPsec-VPN入门概述、SSL-VPN入门概述 如果已有集群是云上其他地域的集群,则需要打通跨地域网络,可使用企业网CEN。具体操作,请...

查看集群列表信息

本文介绍如何查看已创建集群的详情。前提条件 已创建集群,详情请参见 创建集群。操作步骤 使用阿里账号登录 Databricks数据洞察控制台。在Databricks数据洞察控制台页面,选择所在的地域(Region)。创建的集群将会在对应的地域内,一旦...

专属块存储集群概述

专属块存储集群是与其他公共云块存储集群物理隔离、所有者可独享整个集群资源的块存储服务。当您作为专属块存储集群的所有者,即唯一用户时,您不需要与其他公共用户共享块存储集群的所有物理资源。同时,专属块存储集群提供监控功能,您...

什么是DTS专属集群

DTS专属集群是在某一地域由多台相同规格的ECS虚拟机组成的集群,用于管理和配置DTS迁移、同步和订阅任务。相比DTS共享集群,DTS专属集群具有资源独享、稳定性更好、性能更优和成本更低的特点。优势 相比DTS的DTS公共集群(常规售卖模式),...

快速入门

全局监控 多集群统一报警管理 多集群报警差异化配置 分布式工作流Agro集群 功能 描述 参考文档 创建工作流集群并获取集群Kubeconfig 工作流集群 采用无服务器模式,使用阿里弹性容器实例ECI运行工作流,通过优化Kubernetes集群参数,实现...

创建集群

集群 指运行所需要的资源组合,关联了若干 计算节点、灵骏连接 等资源。在集群内可进一步细分 节点分组,节点分组可以包含一个或多个具有相同配置的计算节点,本文为您介绍如何创建集群。前提条件 已根据业务需求购买所需产品(计算节点...

从自建ClickHouse向企业版迁移

在本示例中,自建ClickHouse服务器是源集群,数据库ClickHouse企业版集群是目标集群。操作概述 从自建ClickHouse向数据库ClickHouse企业版集群迁移的流程如下:在源集群中添加一个只读用户。在目标集群上复制源表结构。如果源...

将报警配置功能接入注册集群

event eviction-event sls.app.ack.eviction 集群GPU的XID错误事件 集群GPU XID异常事件。event gpu-xid-error sls.app.ack.gpu.xid_error 集群节点下线 集群中节点下线。event node-down sls.app.ack.node.down 集群节点重启 集群中节点...

迁移方案

由于E-MapReduce集群是在VPC网络中,而很多用户的业务系统还存在于经典网络中,为了解决此问题,阿里推出了ClassicLink方案,您可以参见此方案进行网络互访,详情请参见 建立ClassicLink连接。VPC网络之间连通:选择新旧集群处在同一个...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生数据仓库AnalyticDB MySQL版 云数据库 Redis 版 云数据库专属集群 GPU云服务器 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用