当前位置：网站首页 > 技术文章 > 正文

大模型部署加速方法简单总结（大模型 ai）

zhezhongyun 2025-06-13 18:10 36 浏览

以下对大模型部署、压缩、加速的方法做一个简单总结，为后续需要备查。

llama.cpp

Github : https://github.com/ggerganov/llama.cpp

LLaMA.cpp 项目是开发者 Georgi Gerganov 基于 Meta 释出的 LLaMA 模型（简易 Python 代码示例）手撸的纯 C/C++ 版本，用于模型推理。所谓推理，即是给输入-跑模型-得输出的模型运行过程。

这是我最早用的一个大模型加速框架。具体参见：

北方的郎：建立自己的ChatGPT：LLama私有化部署及测试，一起来养羊驼

PowerInfer

近期，上海交大团队最新推出了超强 CPU/GPU LLM 高速推理引擎 PowerInfer。

添加图片注释，不超过 140 字（可选）

Demo : https://powerinfer-gradio.vercel.app/

GitHub: https://github.com/SJTU-IPADS/PowerInfer

论文：
https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf

在单个 NVIDIA RTX 4090 GPU 上运行 LLM ，PowerInfer 的平均 token 生成速率为 13.20 tokens/s，峰值为 29.08 tokens/s，仅比顶级服务器 A100 GPU 低 18%，可适用于各种 LLM。

添加图片注释，不超过 140 字（可选）

PowerInfer 与llama.cpp 相比，在单个 RTX 4090 (24G) 上运行 Falcon (ReLU)-40B-FP16，实现了 11 倍多的加速，还能保持模型的准确性。具体来说，PowerInfer 是一个用于本地部署 LLM 的高速推理引擎。PowerInfer 通过利用 LLM 推理中的高度局部性，巧妙的设计了一款 GPU-CPU 混合推理引擎。

添加图片注释，不超过 140 字（可选）

它的工作原理是这样的，将频繁激活的神经元（即热激活，hot-activated）预加载到 GPU 上以便快速访问，而不常激活的神经元（冷激活，cold-activated）（占大多数）则在 CPU 上计算。

添加图片注释，不超过 140 字（可选）

这种方法显著减少了 GPU 内存需求和 CPU-GPU 数据传输。

QMoE

来自ISTA的研究人员提出了一种全新的模型量化方法QMoE，可以将1.6万亿个参数的SwitchTransformer压缩到160GB以下（每个参数0.8位），且精度损失很小。

论文：
https://arxiv.org/abs/2310.16795

代码：
https://github.com/IST-DASLab/qmoe

Ollama

Ollama是一个开源项目，它允许用户在本地部署和运行大型机器学习模型。通过Ollama，你可以轻松地在自己的设备上安装和运行ChatGPT等模型，无需担心云端部署的限制。此外，Ollama还提供了Web交互功能，使得模型的使用更加便捷。

代码：GitHub - ollama/ollama: Get up and running with Llama 3, Mistral, Gemma, and other large language models.

vLLM

GitHub: https://github.com/vllm-project/vllm

vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量。

PagedAttention 是 vLLM 的核心技术，它解决了LLM服务中内存的瓶颈问题。传统的注意力算法在自回归解码过程中，需要将所有输入Token的注意力键和值张量存储在GPU内存中，以生成下一个Token。这些缓存的键和值张量通常被称为KV缓存。

HuggingFace TGI

GitHub: https://github.com/huggingface/text-generation-inference

Text Generation Inference（TGI）是 HuggingFace 推出的一个项目，作为支持 HuggingFace Inference API 和 Hugging Chat 上的LLM 推理的工具，旨在支持大型语言模型的优化推理。

FasterTransformer

GitHub: https://github.com/NVIDIA/FasterTransformer

NVIDIA FasterTransformer (FT) 是一个用于实现基于Transformer的神经网络推理的加速引擎。它包含Transformer块的高度优化版本的实现，其中包含编码器和解码器部分。使用此模块，您可以运行编码器-解码器架构模型（如：T5）、仅编码器架构模型（如：BERT）和仅解码器架构模型（如： GPT）的推理。

FT框架是用C++/CUDA编写的，依赖于高度优化的 cuBLAS、cuBLASLt 和 cuSPARSELt 库，这使您可以在 GPU 上进行快速的 Transformer 推理。

与 NVIDIA TensorRT 等其他编译器相比，FT 的最大特点是它支持以分布式方式进行 Transformer 大模型推理。

DeepSpeed-MII

GitHub: https://github.com/microsoft/DeepSpeed-MII

DeepSpeed-MII 是 DeepSpeed 的一个新的开源 Python 库，旨在使模型不仅低延迟和低成本推理，而且还易于访问。

MII 提供了对数千种广泛使用的深度学习模型的高度优化实现。

与原始PyTorch实现相比，MII 支持的模型可显著降低延迟和成本。

为了实现低延迟/低成本推理，MII 利用 DeepSpeed-Inference 的一系列广泛优化，例如：transformers 的深度融合、用于多 GPU 推理的自动张量切片、使用 ZeroQuant 进行动态量化等。

MII 只需几行代码即可通过 AML 在本地和 Azure 上低成本部署这些模型。

FlexFlow Server

GitHub: https://github.com/flexflow/FlexFlow/tree/inference

FlexFlow Serve 是一个开源编译器和分布式系统，用于低延迟、高性能 LLM 服务。

LMDeploy

GitHub: https://github.com/InternLM/lmdeploy

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发，涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。

flex-flow 属性

大模型部署加速方法简单总结（大模型 ai）

llama.cpp

PowerInfer

QMoE

Ollama

vLLM

HuggingFace TGI

FasterTransformer

DeepSpeed-MII

FlexFlow Server

LMDeploy

相关推荐

前端Flex布局可视化布局工具介绍，vue和html5快速设计利器

HTML 简介（html简介及优缺点）

关于HTML5被简称做H5，你怎么看?（html5缩写）

html5 工业web组态-开发自定义的组件 (炫酷按钮)

Python每日一库之Beautiful Soup（python mtime）

怎么用三种代码写「九九乘法表」（如何编写九九乘法表的程序）

HTML标签速查手册?别死记硬背了，带你从原理上掌握它!

用node.js实现一个网页爬虫（nodejs爬虫模拟浏览器）

推荐36种免费React模板和主题「干货」

旧手机新玩法，MacroDeck进阶指南