nvidia LLM优化-阿里云

[帮助文档] 使用DeepGPU-LLM实现大语言模型在GPU上的推理优化

在处理大语言模型任务中，您可以根据实际业务部署情况，选择在不同环境（例如GPU云服务器环境或Docker环境）下安装推理引擎DeepGPU-LLM，然后通过使用DeepGPU-LLM工具实现大语言模型（例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型）在GPU上...

基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化

作者：黄俊，阿里云资深算法专家本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大型语言模型（LLM）实现与训练优化上的创新工作。分享内容将按以下脉络展开： 1. 首先简短回顾...

使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理优化实践

本文首发于 NVIDIA一、概述CodeFuse（https://github.com/codefuse-ai）是由蚂蚁集团开发的代码语言大模型，旨在支持整个软件开发生命周期，涵盖设计、需求、编码、测试、部署、运维等关键阶段。为了在下游任务上获得更好的精度，CodeFuse 提出了多任务微调框架（M...