01资源准备
规划网络及资源、部署资源
02模型及数据准备
用户完成模型下载、准备预训练数据
03模型训练
在PAI-DSW中训练模型,或PAI-DLC中配置多机多卡分布式任务
04模型离线推理及上传
离线推理模型评估模型效果,并上传至OSS
05部署模型
在PAI-EAS平台部署大模型推理服务
下图展示大语言模型(LLM)通过PAI-灵骏从基础开源模型到线上生产应用的开发全链路。涉及的阿里云产品包括机器学习平台PAI、对象存储OSS。步骤包含:资源准备、模型及数据等准备、模型训练、模型离线推理及上传和模型部署这五个阶段。用户在规划好网络和资源、完成资源部署后,可通过Huggingface 或 ModelScope等社区渠道下载Llama2模型,并可在灵骏智算平台的DSW实例中,完成准备预训练数据准备;训练阶段提供多种方案,保障模型效果的同时,提升大模型分布式训练效率;训练所获得的模型可上传至对象存储OSS,并且能够便捷地在PAI-EAS平台部署大模型推理服务。
流程覆盖训练、微调、推理验证及部署环节,降低大模型使用难度及门槛,实现大语言模型在业务中快速落地
数据预先加载至持久化存储,保障训练时数据加载和写入的高带宽需求;训练基于Megatron-LM引擎支持了数据并行、算子拆分、流水并行、序列并行、Flashattention等技术,保障模型效果且大幅提升大模型训练分布式效率