[帮助文档] 基于GPU指标实现弹性伸缩

Kubernetes提供了Custom Metrics机制,该机制可以对接阿里云Prometheus监控来采集GPU指标。本文介绍如何部署阿里云Prometheus监控,并结合示例说明如何通过阿里云Prometheus监控观测GPU指标,实现容器的弹性伸缩。

[帮助文档] GPU设备插件重启和GPU设备隔离

GPU设备插件(GPU Device-Plugin)是Kubernetes集群中用于管理每个节点的GPU的组件,它使得Kubernetes能够更方便、高效地利用GPU资源。本文介绍在独占GPU调度场景下,如何对节点的GPU Device-Plugin进行重启和GPU设备隔离等操作,以及如何查看和更新...

使用ASK容器化部署大语言模型FastChat

1 课时 |
16 人已学 |
免费

如何在 ACK 中使用 MSE Ingress

1 课时 |
114 人已学 |
免费

从概念、部署到优化,Kubernetes Ingress 网关的落地实践

1 课时 |
188 人已学 |
免费
开发者课程背景图

[帮助文档] 利用DCGM实现GPU的性能分析

NVIDIA GPU上存在一些硬件计数器,这些计数器可以用来收集一些设备级别的性能指标,例如GPU利用率、内存使用情况等。借助NVIDIA提供的NVML(NVIDIA Management Library)库或DCGM(Data Center GPU Manager)工具能够查询这些硬件层提供的指标...

云原生 AI 套件租用阿里云 ecs gpu ,放到阿里云ack就不行了,提示驱动没安装,为什么?

云原生 AI 套件租用阿里云 ecs gpu ,docker 能跑在 nvidia -gpu上跑,放到阿里云 ack 就不行了,提示驱动没安装,这一般是什么原因?

阿里云ACK助力GPU成本优化,实现灵活管理

阿里云ACK助力GPU成本优化,实现灵活管理摘要:本文将介绍如何在阿里云容器服务ACK中,利用cGPU技术,共享GPU算力,提高GPU利用率,降低TCO。视频处理、科学计算等应用场景中,GPU云服务器是重要的计算服务。然而,对于GPU利用率不高的应用,如推理的应用...

云原生 AI 套件中,阿里云的ack服务,部署的代码想要检测宿主机是否有GPU资源,这个有方案么?

云原生 AI 套件中,阿里云的ack服务,部署的代码想要检测宿主机是否有GPU资源,这个有方案么?

[帮助文档] 如何在ACK专有版集群中使用共享GPU调度

如您需要在ACK专有版集群中使用共享GPU调度基础版,请参见以下文档。ACK专有版集群基础版迁移专业版安装共享GPU调度组件运行共享GPU调度组件使用共享GPU调度实现仅共享不隔离能力使用共享GPU调度实现cGPU算力分配策略解决专业版集群升级共享GPU调度失效问题

[帮助文档] 如何配置共享GPU调度仅共享不隔离策略

在某些场景下,您可能不需要GPU隔离模块参与共享GPU调度。例如,有些业务应用本身提供显存限制能力,类似于Java应用启动时,可以通过选项指定该应用能够使用的最大内存值。这种情况下,使用GPU隔离模块隔离业务显存反而会有问题。对此,共享GPU调度支持某些节点不安装GPU隔离模块的选项。本文介绍如何配...

基于ACK One注册集群实现IDC中K8s集群以Serverless方式使用云上CPU/GPU资源

基于ACK One注册集群实现IDC中K8s集群以Serverless方式使用云上CPU/GPU资源

在前一篇文章《基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点》中,我们介绍了如何为IDC中K8s集群添加云上节点,应对业务流量的增长,通过多级弹性调度,灵活使用云上资源,并通过自动弹性伸缩,提高使用率,降低云上成本。 这种直接添加节点的方式,适合需要自定义配置节...

基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点

基于ACK One注册集群实现IDC中K8s集群添加云上CPU/GPU节点

在前一篇文章《基于ACK One注册集群轻松实现云上云下K8s集群统一管理》中,我们注重介绍了注册集群的应用场景,架构实现,安全加固,以及在他云K8s集群和IDC自建K8s集群中使用阿里云容器服务ACK的强大可观测性能力,实现云上云下K8s集群的统一运维管理。本文会重点介绍ACK ...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

阿里云容器服务 ACK
阿里云容器服务 ACK
云端最佳容器应用运行环境,安全、稳定、极致弹性
234772+人已加入
加入
相关电子书
更多
智算时代,基于 Kubernetes 落地云原生 AI
容器服务 ACK 加速企业应用现代化升级
容器服务 ACK – 智算时代的现代化应用平台
立即下载 立即下载 立即下载
相关镜像

容器服务Kubernetes版更多gpu相关