[帮助文档] 在ACK集群上通过容器化部署并运行Slurm

容器服务 Kubernetes 版 ACK(Container Service for Kubernetes)通过提供Slurm on Kubernetes解决方案及ack-slurm-operator应用组件,使得您能够在阿里云的ACK集群上便捷、高效地部署和管理Slurm(Simple Linu...

[帮助文档] 基于KServe为服务配置弹性扩缩容策略

在部署与管理KServe模型服务过程中,需应对模型推理服务面临的高度动态负载波动。KServe通过集成Kubernetes原生的HPA(Horizontal Pod Autoscaler)技术及扩缩容控制器,实现了根据CPU利用率、内存占用情况、GPU利用率以及自定义性能指标,自动灵活地调整模型服务...

云原生可观测最佳实践

1 课时 |
39 人已学 |
免费

阿里云云原生助理工程师认证(ACA)课程

66 课时 |
214 人已学 |
免费

高校精品课-华东师范大学-云原生数据库

13 课时 |
277 人已学 |
免费
开发者课程背景图

[帮助文档] 使用Arena进行模型微调和模型管理

本文以大语言模型Qwen-7B-Chat为例,并结合Arena工具,演示如何在提交模型微调作业的同时,对模型微调作业所产生的模型进行管理。

【阿里云云原生专栏】深入解析阿里云Kubernetes服务ACK:企业级容器编排实战

在现代云计算环境中,容器技术已成为应用部署和管理的重要手段。其中,Kubernetes因其强大的编排能力成为事实上的行业标准。本文将深入解析阿里云提供的Kubernetes服务ACK(Alibaba Cloud Kubernetes),并探讨其在企业级场景下的应用实践。 一、ACK概述 ACK是阿里...

[帮助文档] 什么是KServe

KServe是一个开源的云原生模型服务平台,旨在简化在Kubernetes上部署和运行机器学习模型的过程,支持多种机器学习框架、具备弹性扩容能力。KServe通过定义简单的YAML文件,提供声明式的API来部署模型,使得配置和管理模型服务变得更加容易。

[帮助文档] 部署vLLM推理应用

vLLM(Vectorized Large Language Model)是一个高性能的大型语言模型推理库,支持多种模型格式和后端加速,适用于大规模语言模型的推理服务部署。本文以Qwen-7B-Chat-Int8模型、GPU类型为V100卡为例,演示如何部署一个vLLM推理服务。

如果云原生 AI 套件在 ecs 里面部署 ack,那ecs 里面的起的容器可以用上rdma网络吗?

云原生 AI 套件的阿里 ecs 里面可以挂载 erdma 网卡,如果在 ecs 里面部署 ack,那 ecs 里面的起的容器可以用上 rdma 网络吗?我看 ecs 里面最多只能挂载2块 erdma 网卡,那如果我在 ecs 里面起很多容器,这么多容器如何共享这两块 erdma 网卡呢?

部署云原生AI套件,这个会占用ack集群的资源吗?

部署云原生AI套件,这个会占用ack集群的资源吗?

云原生 AI 套件租用阿里云 ecs gpu ,放到阿里云ack就不行了,提示驱动没安装,为什么?

云原生 AI 套件租用阿里云 ecs gpu ,docker 能跑在 nvidia -gpu上跑,放到阿里云 ack 就不行了,提示驱动没安装,这一般是什么原因?

阿里云 ACK 云原生 AI 套件中的分布式弹性训练实践

阿里云 ACK 云原生 AI 套件中的分布式弹性训练实践

作者:霍智鑫众所周知,随着时间的推移,算力成为了 AI 行业演进一个不可或缺的因素。在数据量日益庞大、模型体量不断增加的今天,企业对分布式算力和模型训练效率的需求成为了首要的任务。如何更好的、更高效率的以及更具性价比的利用算力,使用更低的成本来训练不断的迭代 AI 模型,变成了迫切需要解决的问题。而...

本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。

产品推荐

社区圈子

阿里云云原生
阿里云云原生
关注云原生中间件、微服务、Serverless、容器、Service Mesh等技术领域、聚焦云原生技术趋势、云原生大规模的落地实践
9171+人已加入
加入
相关电子书
更多
阿里云云原生开源开发者沙龙北京站 PPT 合集
智算时代,基于 ACK 落地云原生AI
ACK 云原生弹性方案—云原生时代的加速器
立即下载 立即下载 立即下载

云原生更多ack相关