LLM推理优化-阿里云

[帮助文档] 使用DeepGPU-LLM实现大语言模型在GPU上的推理优化_GPU云服务器(EGS)

在处理大语言模型任务中，您可以根据实际业务部署情况，选择在不同环境（例如GPU云服务器环境或Docker环境）下安装推理引擎DeepGPU-LLM，然后通过使用DeepGPU-LLM工具实现大语言模型（例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型）在GPU上...

[帮助文档] LLM模型离线推理组件说明_人工智能平台 PAI(PAI)

LLM模型离线推理组件支持的LLM模型来源于PAI的快速开始中的部分LLM模型，将在线推理转为离线推理。

mnn-llm: 大语言模型端侧CPU推理优化

在大语言模型(LLM)端侧部署上，基于 MNN 实现的 mnn-llm 项目已经展现出业界领先的性能，特别是在 ARM 架构的 CPU 上。目前利用 mnn-llm 的推理能力，qwen-1.8b在mnn-llm的驱动下能够在移动端达到端侧实时会话的能力，能够在较低内存（<2G）的情况下，做到...

使用NVIDIA TensorRT-LLM支持CodeFuse-CodeLlama-34B上的int4量化和推理优化实践

本文首发于 NVIDIA一、概述CodeFuse（https://github.com/codefuse-ai）是由蚂蚁集团开发的代码语言大模型，旨在支持整个软件开发生命周期，涵盖设计、需求、编码、测试、部署、运维等关键阶段。为了在下游任务上获得更好的精度，CodeFuse 提出了多任务微调框架（M...