01部署准备
准备并充值阿里云账号,建议创建并使用RAM用户。
02规划和部署资源
根据方案场景规划并部署网络资源和ACK、AI套件和NAS资源。
03部署准备和配置NAS
通过ROS创建ACK集群,手动安装云原生AI套件,并配置NAS共享存储和进行数据下载。
04大模型训练和推理
提交Bloom模型微调训练任务,开始GPU共享模型推理服务。
05完成及清理
如完成本方案部署后无需使用相关资源,请释放ACK和NAS资源。
通过创建ACK集群Pro版,您可以为集群挂载NAS实例作为集群的共享存储卷,用于存放模型训练数据。在集群中部署云原生AI套件后,您可以基于其能力提交Bloom模型训练任务进行模型训练,并通过GPU显存共享调度的能力,将多个推理服务部署在同一块GPU卡上以提高GPU的利用率。
GPU集群管理和资源分配复杂,需要考虑环境一致性、版本依赖性、配置多样性,监控诊断、故障排查的难度大,还存在资源利用率低下等问题。
AI作业生命周期整个流程,从开发环境搭建、数据准备到模型开发、模型训练、优化等,到模型推理上线和运维,周期长、效率低、协同难度大。