百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

llm-compressor——vllm配套工具,用于压缩大语言模型

zhezhongyun 2025-05-08 22:24 26 浏览

这里是Aideas,每日分享AI相关资讯。本文由Aideas Agent整理并推荐。项目地址:
/vllm-project/llm-compressor, 程序语言:Python, 收藏: 1,193, 分支: 111, 今日收藏: 7 stars today。


llmcompressor 是一个易于使用的库,用于与 vllm 一起优化模型以进行部署,包括:

  • 针对仅权重和激活量化的全面量化算法集
  • 与 Hugging Face 模型和库的无缝集成
  • 基于 safetensors 的文件格式,兼容 vllm
  • 通过 accelerate 支持大模型



支持的格式

  • 激活量化:W8A8 (int8 和 fp8)
  • 混合精度:W4A16, W8A16
  • 2:4 半结构化和非结构化稀疏性

支持的算法

  • 简单 PTQ
  • GPTQ
  • SmoothQuant
  • SparseGPT

优化方案

PTQ

执行 PTQ 是为了将可量化权重(例如线性层)的精度降低到较低的位宽。支持的格式包括:

W4A16 系列

  • 使用 GPTQ 将权重压缩为 4 位。需要校准数据集。
  • 在低 QPS 状态下具有更多的权重压缩,可有效加速。
  • 建议用于任何 GPU 类型。

W8A8-INT8 系列

  • 使用通道量化通过 GPTQ 将权重压缩到 8 位,并使用动态每标记量化将激活压缩到 8 位。需要用于权重量化的校准数据集。激活量化是在 vLLM 上进行推理期间进行的。
  • 对于在高 QPS 制度下加速或在 vLLM 上离线服务非常有用。
  • 建议用于具有计算能力 <8.9(Ampere、Turing、Volta、Pascal 或更早版本)的 NVIDIA GPU。

W8A8-FP8 系列

  • 使用通道量化将权重压缩到 8 位,并使用动态每标记量化将激活压缩到 8 位。不需要校准数据集。激活量化是在 vLLM 上进行推理期间进行的。
  • 对于在高 QPS 制度下加速或在 vLLM 上离线服务非常有用。
  • 建议用于计算能力为 >=9.0 的 NVIDIA GPU(Hopper 和 Blackwell)。

稀疏化

稀疏化通过将选定的权重值修剪为零,同时在参数子集中保留基本权重来降低模型复杂性。支持的格式包括:

FP8 权重的 2:4 稀疏性,FP8 输入激活

  • 使用半结构化稀疏性 (SparseGPT),其中,对于张量中的每四个连续权重,有两个设置为零。使用通道量化将权重压缩到 8 位,并使用动态每个标记量化将激活压缩到 8 位。
  • 比 W8A8-fp8 更适合推理,其评估分数博客几乎没有下降。注: 当剩余的非零权重不足以概括原始分布时,小型模型的准确率可能会下降。
  • 建议用于计算能力 >=9.0(Hopper 和 Blackwell)。

安装

pip install llmcompressor

开始使用

快速测试

使用 GPTQSmoothQuant 算法对 TinyLlama 进行 8 位权重和激活的量化。模型可以更换为本地或远程 HF 兼容的检查点,并且 recipe 可以更改以针对不同的量化算法或格式。

应用量化

通过选择算法并调用 oneshot API 来应用量化。

from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
from llmcompressor.modifiers.quantization import GPTQModifier
from llmcompressor import oneshot

# 选择量化算法。
#   * 应用 SmoothQuant 使激活更容易量化
#   * 使用 GPTQ (静态每通道) 将权重量化为 int8
#   * 将激活量化为 int8 (动态每个 token)
recipe = [
    SmoothQuantModifier(smoothing_strength=0.8),
    GPTQModifier(scheme="W8A8", targets="Linear", ignore=["lm_head"]),
]

# 使用内置的 open_platypus 数据集应用量化。
oneshot(
    model="TinyLlama/TinyLlama-1.1B-Chat-v1.0",
    dataset="open_platypus",
    recipe=recipe,
    output_dir="TinyLlama-1.1B-Chat-v1.0-INT8",
    max_seq_length=2048,
    num_calibration_samples=512,
)

使用 vLLM 进行推理

llmcompressor 创建的检查点可以在 vllm 中加载和运行:

安装:

pip install vllm

运行:

from vllm import LLM
model = LLM("TinyLlama-1.1B-Chat-v1.0-INT8")
output = model.generate("我的名字是")

使用 HF Accelerate 量化大模型

llmcompressor集成以支持量化大型模型(如 Llama 70B 和 405B),或量化 GPU 资源有限的任何模型。


概述

accelerate是 Hugging Face 生态系统中一个非常有用的库,支持使用大型模型,包括:

  • 将参数卸载到 CPU
  • 使用管道并行性跨多个 GPU 分片模型

device_map

from transformers import AutoModelForCausalLM
MODEL_ID = "meta-llama/Meta-Llama-3-70B-Instruct"

# device_map="auto" triggers usage of accelerate
# if > 1 GPU, the model will be sharded across the GPUs
# if not enough GPU memory to fit the model, parameters are offloaded to the CPU
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID, device_map="auto", torch_dtype="auto")
from llmcompressor.transformers.compression.helpers import calculate_offload_device_map
from transformers import AutoModelForCausalLM
MODEL_ID = "meta-llama/Meta-Llama-3-70B-Instruct"

# Load model, reserving memory in the device map for sequential GPTQ (adjust num_gpus as needed)
device_map = calculate_offload_device_map(MODEL_ID, reserve_for_hessians=True, num_gpus=1)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    device_map=device_map,
    torch_dtype="auto",
)

实用建议

CPU 卸载和朴素的管道并行性会减慢通过模型的向前传递。因此,需要注意确保所使用的量化方法与卸载方案很好地匹配,因为需要许多前向传递的方法,尽管模型会减慢速度。没有更多 GPU 内存可用,可以考虑将加载模型的精度降低到较低宽度的 dtype。

例子

  • CPU 卸载:量化为与单个 GPU 一起使用
  • 多 GPU:量化为使用 2 个 GPU 和使用 2 个GPU

安装

pip install llmcompressor

CPU 卸载:量化FP8PTQ

export CUDA_VISIBLE_DEVICES=0
python cpu_offloading_fp8.py

多 GPU:量化INT8GPTQ

  • multi_gpu_int8.py演示如何量化 2 个 A100 上 to 的权重和激活:Llama-70Bint8
export CUDA_VISIBLE_DEVICES=0,1
python multi_gpu_int8.py

使用 FP8 量化 Mixtral-8x7B-Instruct-v0.1 模型

快速入门

提供的示例脚本演示了应用量化算法的端到端过程:

python3 mixtral_moe_w8a8_fp8.py

创建量化 MoE 模型

此示例利用 和 创建一个 FP8 量化模型。该模型使用数据集进行校准和训练。

可以按照下面的详细步骤作,也可以简单地使用以下命令运行示例脚本:

python mixtral_moe_w8a8_fp8.py

步骤 1:选择模型、数据集和配方

在此步骤中,将选择用于量化的基线模型、用于校准的数据集和量化配方。

  • 模型:可以从本地目录引用,也可以从 Hugging Face Hub 检索。
  • 数据集:也可以来自本地目录或 Hugging Face Hub。
  • 配方:这些是 YAML 文件或 Python 修饰符对象,用于描述在训练期间或训练后应如何优化模型。在此示例中,使用 scheme 设置为QuantizationModifierFP8 的对象。
from llmcompressor.modifiers.quantization import QuantizationModifier

recipe = QuantizationModifier(scheme="FP8", targets="Linear", ignore=["lm_head", "re:.*block_sparse_moe.gate"])

第 2 步:使用 Oneshot 运行量化

该方法将所选配方应用于模型和数据集,而无需进行任何微调。模型将被稀疏化并保存到
oneshotMixtral-8x7B-Instruct-v0.1-FP8。

from llmcompressor import oneshot

output_dir = "Mixtral-8x7B-Instruct-v0.1-FP8"

oneshot(
    model=model,
    dataset=dataset,
    recipe=recipe,
    save_compressed=True,
    output_dir=output_dir,
    
    max_seq_length=2048,
    num_calibration_samples=512,
)

自定义量化

使用config_groups :

# Example of defining a custom quantization scheme

from llmcompressor.modifiers.quantization.gptq import GPTQModifier

config_groups = {
                "group_0": {
                    "targets": ["Linear"],
                    "input_activations": None,
                    "output_activations": None,
                    "weights": {
                        "num_bits": 8,
                        "type": "int",
                        "symmetric": true,
                        "strategy": "group",
                        "group_size": 128, 
                    }
               }
}

recipe = GPTQModifier(config_groups=config_groups)



相关推荐

Chinese vice premier calls for multilateralism at Davos

DAVOS,Switzerland,Jan.21(Xinhua)--ChineseVicePremierDingXuexiangdeliveredaspeechatthe...

用C++ Qt手把手打造炫酷汽车仪表盘

一、项目背景与核心价值在车载HMI(人机交互界面)开发领域,虚拟仪表盘是智能座舱的核心组件。本项目基于C++Qt框架实现一个具备专业级效果的时速表模块,涵盖以下技术要点:Qt图形绘制核心机制(QPa...

系列专栏(八):JS的第七种基本类型Symbols

ES6作为新一代JavaScript标准,已正式与广大前端开发者见面。为了让大家对ES6的诸多新特性有更深入的了解,MozillaWeb开发者博客推出了《ES6InDepth》系列文章。CSDN...

MFC界面开发工具BCG v31.1 - 增强功能区、工具箱功能

点击“了解更多”获取工具亲爱的BCGSoft用户,我们非常高兴地宣布BCGControlBarProfessionalforMFC和BCGSuiteforMFCv31.2正式发布!新版本支...

雅居乐上调出售吉隆坡项目保留金,预计亏损扩大至6.64亿元

1月2日,雅居乐集团(03383.HK)发布有关出售一家附属公司股权披露交易的补充公告。此前雅居乐集团曾公告,2023年11月8日(交易时段后),集团子公司AgileRealEstateDeve...

Full text: Address by Vice Premier Ding Xuexiang&#39;s at World Economic Forum Annual Meeting 2025

DAVOS,Switzerland,Jan.21(Xinhua)--ChineseVicePremierDingXuexiangonTuesdaydeliveredasp...

手机性能好不好 GPU玄学曲线告诉你

前言各位在看测试者对手机进行评测时或许会见过“安卓玄学曲线”,所谓中的安卓玄学曲线真名为“ProfileGPURendering”。大多数情况下,在系统“开发者选项中被称为“GPU显示配置文件”或...

小迈科技 X Hologres:高可用的百亿级广告实时数仓建设

通过本文,我们将会介绍小迈科技如何通过Hologres搭建高可用的实时数仓。一、业务介绍小迈科技成立于2015年1月,是一家致力以数字化领先为优势,实现业务高质量自增长的移动互联网科技公司。始...

vue3新特征和所有的属性,方法汇总及其对应源码分析

vue3新特征汇总与源码分析(备注:vue3使用typescript编写)何为应用?constapp=Vue.createApp({})app就是一个应用。应用的配置和应用的API就是app应用...

China&#39;s stability redefines global trade in a volatile era

ContainersareunloadedatQingdaoPort,eastChina'sShandongProvince,December10,2024.[Photo/X...

QML 实现图片帧渐隐渐显轮播

前言所谓图片帧渐隐渐显轮播就是,一组图片列表,当前图片逐渐改变透明度隐藏,同时下一张图片逐渐改变透明度显示,依次循环,达到渐隐渐显的效果,该效果常用于图片展示,相比左右自动切换的轮播方式来说,这种方式...

前端惊魂夜:我竟在CSS里写出了JavaScript?

凌晨两点,写字楼里只剩下我工位上的一盏孤灯。咖啡杯见底,屏幕的光映在疲惫的眼镜片上。为了实现一个极其复杂的动态渐变效果,我翻遍了MDN文档,试遍了所有已知的CSS技巧,却始终差那么一口气。“要是CSS...

10 个派上用场的 Flutter 小部件

尝试学习一门新语言可能会令人恐惧和厌烦。很多时候,我们希望我们知道早先存在的某些功能。在今天的文章中,我将告诉你我希望早点知道的最方便的颤振小部件。SpacerSpacer创建一个可调整的空白空...

让我的 Flutter 代码整洁 10 倍的 5 种

如果你曾在Flutter中使用过SingleTickerProviderStateMixin来制作动画,猜猜怎么着?你已经使用过Mixin了——恭喜你,你已经处于一段你甚至不知道的关...

daisyUI - 主题漂亮、代码纯净!免费开源的 Tailwind CSS 组件库

漂亮有特色的CSS组件库,组件代码非常简洁,也支持深度定制主题、定制组件,可以搭配Vue/React等框架使用。关于daisyUIdaisyUI是一款极为流行的CSSUI组件库,...