一键训练大模型及部署GPU共享推理服务

方案介绍
一键训练大模型及部署GPU共享推理服务

通过创建ACK集群Pro版,您可以为集群挂载NAS实例作为集群的共享存储卷,用于存放模型训练数据。在集群中部署云原生AI套件后,您可以基于其能力提交Bloom模型训练任务进行模型训练,并通过GPU显存共享调度的能力,将多个推理服务部署在同一块GPU卡上以提高GPU的利用率。

解决问题:GPU管理复杂

GPU集群管理和资源分配复杂,需要考虑环境一致性、版本依赖性、配置多样性,监控诊断、故障排查的难度大,还存在资源利用率低下等问题。

解决问题:AI工程效率低

AI作业生命周期整个流程,从开发环境搭建、数据准备到模型开发、模型训练、优化等,到模型推理上线和运维,周期长、效率低、协同难度大。

方案优势
提高资源利用率
通过GPU共享调度,多个推理服务可以部署在同一张GPU卡上共享显存,提升GPU利用率。还可以结合阿里云cGPU技术实现显存和错误隔离。
简化运维
基于容器服务ACK对GPU等异构资源进行统一管理、运维和分配,提供多维度监控、健康检查、自动异常发现、自愈和告警等自动化运维能力。
提升AI工程效率
通过命令行工具Arena,屏蔽底层资源、Kubernetes、运行环境等复杂度,以统一的方式管理系统、任务,模型开发、训练、推理等全生命周期。
应用场景
持续优化异构资源效率
对云上各种异构计算资源(如CPU、GPU、NPU、VPU、FPGA)、存储(OSS、NAS、CPFS、HDFS)、网络(TCP、RDMA)资源,云原生AI套件支持对其进行抽象,统一管理、运维和分配,通过弹性和软硬协同优化,持续提升资源利用率。
高效运行AI等异构工作负载
云原生AI套件兼容Tensorflow、Pytorch、Horovod、Spark、Flink等主流开源或者用户自有的各种计算引擎和运行时,统一运行各类异构工作负载,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。云原生AI套件一方面不断优化运行任务的性能、效率和成本,另一方面持续改善开发运维体验和工程效率。
方案部署
01部署准备
准备并充值阿里云账号,建议创建并使用RAM用户。
02规划和部署资源
根据方案场景规划并部署网络资源和ACK、AI套件和NAS资源。
03部署准备和配置NAS
通过ROS创建ACK集群,手动安装云原生AI套件,并配置NAS共享存储和进行数据下载。
04大模型训练和推理
提交Bloom模型微调训练任务,开始GPU共享模型推理服务。
05完成及清理
如完成本方案部署后无需使用相关资源,请释放ACK和NAS资源。
部署Nginx并通过Ingress暴露和监控服务
在阿里云容器服务(后简称ACK)集群中通过YAML文件快速部署一个Nginx应用并通过Nginx Ingress暴露和监控服务,结合使用ACK、日志服务、专有网络搭建业务部署运维方案,具有集群快速创建、应用高效部署和业务运维简单的优势,适用于新兴互联网行业,转型的传统金融、物流等多行业。
MSE实现全链路灰度
MSE微服务治理为多应用发布提供全链路灰度能力,让客户不修改业务代码的情况下实现全链路流量控制,端到端构建从网关到多个后端服务的全链路灰度。客户在多应用同时发布新版本的情况下,支持多个应用进行灰度验证,确保应用平滑发布上线。