[帮助文档] 如何通过阿里云Prometheus监控观测GPU指标,实现容器的弹性伸缩

Kubernetes提供了Custom Metrics机制,该机制可以对接阿里云Prometheus监控来采集GPU指标。本文介绍如何部署阿里云Prometheus监控,并结合示例说明如何通过阿里云Prometheus监控观测GPU指标,实现容器的弹性伸缩。

[帮助文档] 什么是阿里云地域和可用区,如何选择

本文介绍阿里云地域和可用区的概念、选择指导、两者的关系以及阿里云支持的地域和可用区列表。

阿里云大数据工程师ACA认证(2023版)

21 课时 |
807 人已学 |
免费

阿里云人工智能工程师ACA认证(2023版)

41 课时 |
383 人已学 |
免费

阿里云数据中心基础设施初级运维工程师认证培训课程

50 课时 |
141 人已学 |
免费
开发者课程背景图
阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案

阿里云林立翔:基于阿里云GPU的AIGC小规模训练优化方案

本篇文章围绕生成式AI技术栈、生成式AI微调训练和性能分析、ECS GPU实例为生成式AI提供算力保障、应用场景案例等相关话题展开。一、生成式AI技术栈介绍1、生成式AI爆发的历程在2022年的下半年,业界迎来了生成式AI的全面爆发,尤其是以ChatGPT为代表的大语言模型和以Stable...

[帮助文档] 如何通过阿里云Prometheus对GPU资源进行监控,查看GPU各项指标

本文介绍通过阿里云Prometheus对GPU资源进行监控,查看GPU各项指标。

[帮助文档] 概括介绍阿里云异构计算产品家族

阿里云异构计算产品为您提供了软件与硬件结合的完整服务体系,助力您在人工智能业务中实现资源的灵活分配、弹性扩展、算力的提升以及成本的控制。

阿里云于子淇:如何利用GPU云服务器加速AIGC训练|阿里云弹性计算技术公开课直播预告

阿里云于子淇:如何利用GPU云服务器加速AIGC训练|阿里云弹性计算技术公开课直播预告

6月起,阿里云弹性计算团队联合智东西公开课共同出品「阿里云弹性计算技术公开课」,主讲大模型的算力挑战、Stable-Diffusion AI绘画与AIGC模型训练加速。阿里云弹性计算产品专家张新涛、阿里云高级开发工程师吕倪祺、阿里云高级开发工程师于子淇三位技术专家将先后进行直播讲解。目前,「阿里云弹...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

阿里云最佳实践
阿里云最佳实践
阿里云最佳实践,是基于众多客户上云的成功案例萃取而成的最优化企业上云指导。每个最佳实践包括使用场景、多产品部署架构及部署手册。帮助客户更好地理解阿里云的产品和解决方案,降低企业上云门槛的同时满足客户自服务的需求。
315+人已加入
加入
相关电子书
更多
阿里云云原生开源开发者沙龙北京站 PPT 合集
阿里云产品二月刊
阿里云产品手册2024版
立即下载 立即下载 立即下载