[帮助文档] 使用集群巡检和诊断的节点诊断功能自助排查GPU节点问题
ACK集群提供节点级别的GPU诊断功能,供您进行部分GPU相关问题的故障排查。如果您在ACK Pro版集群中使用GPU节点时遇到问题,可以启用GPU节点自助诊断,采集GPU诊断的基础指标进行问题排查。本文介绍如何使用节点诊断功能,自助排查GPU节点问题,并提供nvidia-smi和XID状态码排查列...
[帮助文档] 如何在ACK灵骏托管版集群中使用共享GPU调度(eGPU)
本文介绍如何在ACK灵骏托管版集群中的灵骏节点上使用共享GPU调度(eGPU),实现GPU的调度和隔离能力。
[帮助文档] 如何开启ACK集群GPU监控
GPU监控2.0基于NVIDIA DCGM构建功能强大的GPU监控体系。本文介绍如何开启集群GPU监控。
[帮助文档] 如何使用GPU监控2.0监控ACK集群中的GPU资源
GPU监控2.0基于NVIDIA DCGM实现对集群GPU节点的全方位监控。本文介绍如何使用GPU监控2.0监控ACK集群中的GPU资源。
[帮助文档] 如何在ACK专有版集群中使用共享GPU调度
如您需要在ACK专有版集群中使用共享GPU调度基础版,请参见以下文档。ACK专有版集群基础版迁移专业版安装共享GPU调度组件运行共享GPU调度组件使用共享GPU调度实现仅共享不隔离能力使用共享GPU调度实现cGPU算力分配策略解决专业版集群升级共享GPU调度失效问题
基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点
在前一篇文章《基于ACK One注册集群轻松实现云上云下K8s集群统一管理》中,我们注重介绍了注册集群的应用场景,架构实现,安全加固,以及在他云K8s集群和IDC自建K8s集群中使用阿里云容器服务ACK的强大可观测性能力,实现云上云下K8s集群的统一运维管理。本文会重点介绍ACK ...
基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点
在前一篇文章《基于ACK One注册集群轻松实现云上云下K8s集群统一管理》中,我们注重介绍了注册集群的应用场景,架构实现,安全加固,以及在他云K8s集群和IDC自建K8s集群中使用阿里云容器服务ACK的强大可观测性能力,实现云上云下K8s集群的统一运维管理。本文会重点介绍ACK One注册集群的另...
【USENIX ATC】支持异构GPU集群的超大规模模型的高效的分布式训练框架Whale
作者:张杰、贾贤艳近日,阿里云机器学习PAI关于深度学习模型高效的分布式训练框架的论文《 Whale: Efficient Giant Model Training over Heterogeneous GPUs 》被计算机系统领域国际顶级学术会议USENIX ATC'22接收。Whale是阿里云机...
如何在 ACK 集群中使用 GPU 来执行机器学习任务?
如何在 ACK 集群中使用 GPU 来执行机器学习任务?
节点管理如何Kubernetes 集群支持轻量级 GPU 调度?
节点管理如何Kubernetes 集群支持轻量级 GPU 调度?
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。