[帮助文档] 利用DCGM实现GPU的性能分析

NVIDIA GPU上存在一些硬件计数器,这些计数器可以用来收集一些设备级别的性能指标,例如GPU利用率、内存使用情况等。借助NVIDIA提供的NVML(NVIDIA Management Library)库或DCGM(Data Center GPU Manager)工具能够查询这些硬件层提供的指标...

[帮助文档] 如何配置共享GPU调度节点选卡策略

默认情况,Pod分配GPU资源的顺序为先分配完节点上的一张GPU卡,再分配其他GPU卡,避免出现GPU资源碎片。但是在有的场景中,您希望让Pod调度到节点上时,尽量分散到各个GPU卡上,避免因为某张GPU卡坏掉影响的业务过多。本文介绍如何配置共享GPU调度节点选卡策略。

[帮助文档] GPU设备插件重启和GPU设备隔离

GPU设备插件(GPU Device-Plugin)是Kubernetes集群中用于管理每个节点的GPU的组件,它使得Kubernetes能够更方便、高效地利用GPU资源。本文介绍在独占GPU调度场景下,如何对节点的GPU Device-Plugin进行重启和GPU设备隔离等操作,以及如何查看和更新...

kubernetes GPU共享的困境和破局

kubernetes GPU的困境和破局随着人工智能与机器学习技术的快速发展,在 Kubernetes 上运行模型训练、图像处理类程序的需求日益增加,而实现这类需求的基础,就是 Kubernetes 对 GPU 等硬件加速设备的支持与管理。kubernetes 调度 GPU-使用篇Kubernete...

在 Kubernetes 上调用 GPU

Kubernetes (k8s) 是一种流行的容器编排系统,它可以轻松地管理和调度大规模容器化应用程序。对于需要使用图形处理单元(GPU)的应用程序来说,Kubernetes 可以帮助我们更好地利用 GPU 资源,并实现更高效的计算。本文将介绍如何在 Kubernetes 上调用 GPU,以及如何优...

[帮助文档] 如何在ACK专有版集群中使用共享GPU调度

如您需要在ACK专有版集群中使用共享GPU调度基础版,请参见以下文档。ACK专有版集群基础版迁移专业版安装共享GPU调度组件运行共享GPU调度组件使用共享GPU调度实现仅共享不隔离能力使用共享GPU调度实现cGPU算力分配策略解决专业版集群升级共享GPU调度失效问题

[帮助文档] 如何配置共享GPU调度仅共享不隔离策略

在某些场景下,您可能不需要GPU隔离模块参与共享GPU调度。例如,有些业务应用本身提供显存限制能力,类似于Java应用启动时,可以通过选项指定该应用能够使用的最大内存值。这种情况下,使用GPU隔离模块隔离业务显存反而会有问题。对此,共享GPU调度支持某些节点不安装GPU隔离模块的选项。本文介绍如何配...

尝鲜阿里云容器服务Kubernetes 1.16,共享TensorFlow实验室《二》--共享GPU的弹性

尝鲜阿里云容器服务Kubernetes 1.16,共享TensorFlow实验室《二》--共享GPU的弹性

上一篇文章《尝鲜阿里云容器服务Kubernetes 1.16,共享TensorFlow实验室》我们讲述了如何通过CGPU的方案来实现CGPU资源的共享和隔离。本文介绍基于CGPU资源的弹性能力。ps:下面的说明是基于上一篇文章的环境来进行的描述,环境的搭建请参考上一篇文章。 配置弹性伸缩组 在“集群...

体验托管Prometheus监控阿里云容器服务Kubernetes的GPU资源

体验托管Prometheus监控阿里云容器服务Kubernetes的GPU资源

在阿里云容器服务中使用GPU资源运行进行AI模型训练和预测时,经常需要了解应用负载的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,通过内置ARMS可以从应用的维度去观测GPU的使用情况,了解资源水位,以及设定相应的报警,避免因为GPU资源的约束引发业务风险。另外相比自...

节点管理如何利用阿里云Kubernetes的GPU节点标签进行调度?

节点管理如何利用阿里云Kubernetes的GPU节点标签进行调度?

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

云服务器ECS
云服务器ECS
做技术先进、性能优异、稳如磐石的弹性计算!
418274+人已加入
加入
相关电子书
更多
端到端GPU性能在深度学学习场景下的应用实践
DeepStream: GPU加速海量视频数据智能处理
阿里巴巴高性能GPU架构与应用
立即下载 立即下载 立即下载

GPU云服务器kubernetes相关内容