[帮助文档] 配置MLflow模型仓库

MLflow是一个开源的机器学习生命周期管理平台,可以用来追踪模型训练信息、管理和部署机器学习模型。本文介绍如何为模型管理功能配置MLflow模型仓库。

[帮助文档] 在ACK集群部署多租户任务调度管理

在ACK集群中,企业可以通过AI套件中的任务管理工具Arena、队列调度管理系统Kube Queue、配额管理工具ElasticQuotaTree以及Prometheus监控打造企业级任务调度系统。本文将从实际案例出发自底而上地介绍如何基于ACK集群构建一个任务调度系统。

云原生可观测最佳实践

1 课时 |
39 人已学 |
免费

阿里云云原生助理工程师认证(ACA)课程

66 课时 |
214 人已学 |
免费

高校精品课-华东师范大学-云原生数据库

13 课时 |
277 人已学 |
免费
开发者课程背景图

[帮助文档] 利用DCGM实现GPU的性能分析

NVIDIA GPU上存在一些硬件计数器,这些计数器可以用来收集一些设备级别的性能指标,例如GPU利用率、内存使用情况等。借助NVIDIA提供的NVML(NVIDIA Management Library)库或DCGM(Data Center GPU Manager)工具能够查询这些硬件层提供的指标...

[帮助文档] 使用抢占式实例弹性训练以降低AI模型的训练成本

为降低使用AI模型训练成本,云原生AI套件推出基于抢占式实例的弹性训练解决方案,该方案可以将AI模型训练这种有状态类型的工作负载运行在抢占式实例上,几乎可以做到在不影响训练作业成功率的情况下降低训练成本。

【云原生】Jenkins集成Kubernetes详解

【云原生】Jenkins集成Kubernetes详解

一. Jenkins集成Kubernetes1.1 准备部署的yml文件apiVersion: apps/v1 kind: Deployment metadata: namespace: test name: pipeline labels: app: pipeline spec: replicas...

【云原生】DevOps(八):Jenkins集成Kubernetes

【云原生】DevOps(八):Jenkins集成Kubernetes

@TOC前言: 📢📢📢 当下云原生火爆全网,云原生充分利用了云计算弹性、敏捷、资源池和服务化特性,改变云端应用的设计、开发、部署和运行模式,为我们大大提供了便利,本篇文章将带大家走进云原生的世界,揭开它的神秘面纱。 💕 入门须知:...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

阿里云云原生
阿里云云原生
关注云原生中间件、微服务、Serverless、容器、Service Mesh等技术领域、聚焦云原生技术趋势、云原生大规模的落地实践
9149+人已加入
加入
相关电子书
更多
智算时代,基于 Kubernetes 落地云原生 AI
企业运维之云原生和Kubernetes 实战
深耕云原生技术– Kubernetes应用渐入佳境
立即下载 立即下载 立即下载

云原生kubernetes相关内容