llm-compressor——vllm配套工具,用于压缩大语言模型
zhezhongyun 2025-05-08 22:24 17 浏览
这里是Aideas,每日分享AI相关资讯。本文由Aideas Agent整理并推荐。项目地址:
/vllm-project/llm-compressor, 程序语言:Python, 收藏: 1,193, 分支: 111, 今日收藏: 7 stars today。
llmcompressor 是一个易于使用的库,用于与 vllm 一起优化模型以进行部署,包括:
- 针对仅权重和激活量化的全面量化算法集
- 与 Hugging Face 模型和库的无缝集成
- 基于 safetensors 的文件格式,兼容 vllm
- 通过 accelerate 支持大模型
支持的格式
- 激活量化:W8A8 (int8 和 fp8)
- 混合精度:W4A16, W8A16
- 2:4 半结构化和非结构化稀疏性
支持的算法
- 简单 PTQ
- GPTQ
- SmoothQuant
- SparseGPT
优化方案
PTQ
执行 PTQ 是为了将可量化权重(例如线性层)的精度降低到较低的位宽。支持的格式包括:
W4A16 系列
- 使用 GPTQ 将权重压缩为 4 位。需要校准数据集。
- 在低 QPS 状态下具有更多的权重压缩,可有效加速。
- 建议用于任何 GPU 类型。
W8A8-INT8 系列
- 使用通道量化通过 GPTQ 将权重压缩到 8 位,并使用动态每标记量化将激活压缩到 8 位。需要用于权重量化的校准数据集。激活量化是在 vLLM 上进行推理期间进行的。
- 对于在高 QPS 制度下加速或在 vLLM 上离线服务非常有用。
- 建议用于具有计算能力 <8.9(Ampere、Turing、Volta、Pascal 或更早版本)的 NVIDIA GPU。
W8A8-FP8 系列
- 使用通道量化将权重压缩到 8 位,并使用动态每标记量化将激活压缩到 8 位。不需要校准数据集。激活量化是在 vLLM 上进行推理期间进行的。
- 对于在高 QPS 制度下加速或在 vLLM 上离线服务非常有用。
- 建议用于计算能力为 >=9.0 的 NVIDIA GPU(Hopper 和 Blackwell)。
稀疏化
稀疏化通过将选定的权重值修剪为零,同时在参数子集中保留基本权重来降低模型复杂性。支持的格式包括:
FP8 权重的 2:4 稀疏性,FP8 输入激活
- 使用半结构化稀疏性 (SparseGPT),其中,对于张量中的每四个连续权重,有两个设置为零。使用通道量化将权重压缩到 8 位,并使用动态每个标记量化将激活压缩到 8 位。
- 比 W8A8-fp8 更适合推理,其评估分数博客几乎没有下降。注: 当剩余的非零权重不足以概括原始分布时,小型模型的准确率可能会下降。
- 建议用于计算能力 >=9.0(Hopper 和 Blackwell)。
安装
pip install llmcompressor
开始使用
快速测试
使用 GPTQ 和 SmoothQuant 算法对 TinyLlama 进行 8 位权重和激活的量化。模型可以更换为本地或远程 HF 兼容的检查点,并且 recipe 可以更改以针对不同的量化算法或格式。
应用量化
通过选择算法并调用 oneshot API 来应用量化。
from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
from llmcompressor.modifiers.quantization import GPTQModifier
from llmcompressor import oneshot
# 选择量化算法。
# * 应用 SmoothQuant 使激活更容易量化
# * 使用 GPTQ (静态每通道) 将权重量化为 int8
# * 将激活量化为 int8 (动态每个 token)
recipe = [
SmoothQuantModifier(smoothing_strength=0.8),
GPTQModifier(scheme="W8A8", targets="Linear", ignore=["lm_head"]),
]
# 使用内置的 open_platypus 数据集应用量化。
oneshot(
model="TinyLlama/TinyLlama-1.1B-Chat-v1.0",
dataset="open_platypus",
recipe=recipe,
output_dir="TinyLlama-1.1B-Chat-v1.0-INT8",
max_seq_length=2048,
num_calibration_samples=512,
)
使用 vLLM 进行推理
由 llmcompressor 创建的检查点可以在 vllm 中加载和运行:
安装:
pip install vllm
运行:
from vllm import LLM
model = LLM("TinyLlama-1.1B-Chat-v1.0-INT8")
output = model.generate("我的名字是")
使用 HF Accelerate 量化大模型
llmcompressor集成以支持量化大型模型(如 Llama 70B 和 405B),或量化 GPU 资源有限的任何模型。
概述
accelerate是 Hugging Face 生态系统中一个非常有用的库,支持使用大型模型,包括:
- 将参数卸载到 CPU
- 使用管道并行性跨多个 GPU 分片模型
device_map
from transformers import AutoModelForCausalLM
MODEL_ID = "meta-llama/Meta-Llama-3-70B-Instruct"
# device_map="auto" triggers usage of accelerate
# if > 1 GPU, the model will be sharded across the GPUs
# if not enough GPU memory to fit the model, parameters are offloaded to the CPU
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID, device_map="auto", torch_dtype="auto")
from llmcompressor.transformers.compression.helpers import calculate_offload_device_map
from transformers import AutoModelForCausalLM
MODEL_ID = "meta-llama/Meta-Llama-3-70B-Instruct"
# Load model, reserving memory in the device map for sequential GPTQ (adjust num_gpus as needed)
device_map = calculate_offload_device_map(MODEL_ID, reserve_for_hessians=True, num_gpus=1)
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
device_map=device_map,
torch_dtype="auto",
)
实用建议
CPU 卸载和朴素的管道并行性会减慢通过模型的向前传递。因此,需要注意确保所使用的量化方法与卸载方案很好地匹配,因为需要许多前向传递的方法,尽管模型会减慢速度。没有更多 GPU 内存可用,可以考虑将加载模型的精度降低到较低宽度的 dtype。
例子
- CPU 卸载:量化为与单个 GPU 一起使用
- 多 GPU:量化为使用 2 个 GPU 和使用 2 个GPU
安装
pip install llmcompressor
CPU 卸载:量化FP8PTQ
export CUDA_VISIBLE_DEVICES=0
python cpu_offloading_fp8.py
多 GPU:量化INT8GPTQ
- multi_gpu_int8.py演示如何量化 2 个 A100 上 to 的权重和激活:Llama-70Bint8
export CUDA_VISIBLE_DEVICES=0,1
python multi_gpu_int8.py
使用 FP8 量化 Mixtral-8x7B-Instruct-v0.1 模型
快速入门
提供的示例脚本演示了应用量化算法的端到端过程:
python3 mixtral_moe_w8a8_fp8.py
创建量化 MoE 模型
此示例利用 和 创建一个 FP8 量化模型。该模型使用数据集进行校准和训练。
可以按照下面的详细步骤作,也可以简单地使用以下命令运行示例脚本:
python mixtral_moe_w8a8_fp8.py
步骤 1:选择模型、数据集和配方
在此步骤中,将选择用于量化的基线模型、用于校准的数据集和量化配方。
- 模型:可以从本地目录引用,也可以从 Hugging Face Hub 检索。
- 数据集:也可以来自本地目录或 Hugging Face Hub。
- 配方:这些是 YAML 文件或 Python 修饰符对象,用于描述在训练期间或训练后应如何优化模型。在此示例中,使用 scheme 设置为QuantizationModifierFP8 的对象。
from llmcompressor.modifiers.quantization import QuantizationModifier
recipe = QuantizationModifier(scheme="FP8", targets="Linear", ignore=["lm_head", "re:.*block_sparse_moe.gate"])
第 2 步:使用 Oneshot 运行量化
该方法将所选配方应用于模型和数据集,而无需进行任何微调。模型将被稀疏化并保存到
oneshotMixtral-8x7B-Instruct-v0.1-FP8。
from llmcompressor import oneshot
output_dir = "Mixtral-8x7B-Instruct-v0.1-FP8"
oneshot(
model=model,
dataset=dataset,
recipe=recipe,
save_compressed=True,
output_dir=output_dir,
max_seq_length=2048,
num_calibration_samples=512,
)
自定义量化
使用config_groups :
# Example of defining a custom quantization scheme
from llmcompressor.modifiers.quantization.gptq import GPTQModifier
config_groups = {
"group_0": {
"targets": ["Linear"],
"input_activations": None,
"output_activations": None,
"weights": {
"num_bits": 8,
"type": "int",
"symmetric": true,
"strategy": "group",
"group_size": 128,
}
}
}
recipe = GPTQModifier(config_groups=config_groups)
相关推荐
- 用豆包生成的BMI计算器(豆包的热量是多少?)
-
<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8...
- Android 开发中文引导-应用小部件
-
应用小部件是可以嵌入其它应用(例如主屏幕)并收到定期更新的微型应用视图。这些视图在用户界面中被叫做小部件,并可以用应用小部件提供者发布。可以容纳其他应用部件的应用组件叫做应用部件的宿主(1)。下面的截...
- Qt推流(视频文件/视频流/摄像头/桌面转流媒体rtmp+hls+webrtc)
-
一、前言说明推流直播就是把采集阶段封包好的内容传输到服务器的过程。其实就是将现场的视频信号从手机端,电脑端,摄影机端打包传到服务器的过程。“推流”对网络要求比较高,如果网络不稳定,直播效果就会很差,观...
- 一看就会!谷歌广告转化跟踪详细设置指南来了
-
在出海推广业务中,投放广告最常见的目的是获取订单,但我们怎么知道有没有达成投放目的呢?谷歌转化跟踪技术就可以做到!熟悉谷歌的卖家朋友都知道,转化跟踪在最近几年变得越来越复杂了,虽然有很多选项可以自定义...
- Android原生编解码接口MediaCodec详解
-
作者:躬行之MediaCodec是Android中的编解码器组件,用来访问底层提供的编解码器,通常与MediaExtractor、MediaSync、MediaMuxer、MediaCrypt...
- 手把手搭建RTSP流媒体服务器(rtsp 流媒体)
-
0.引言本文主要讲解如何搭建RTSP流媒体服务器的过程,使用开源项目ZLMediaKit。通过这个开源项目,推RTSP流到服务器,然后拉流端可以拉取RTSP、RTMP等流。ZLMediaKit码云链接...
- MediaInfo 24.04.0 是一个关于多媒体文件的信息提供工具
-
MediaInfo24.04.0是一个关于多媒体文件的信息提供工具(仅当文件中包含信息时才提供):包括常规信息(标题、作者、导演、专辑、曲目编号、日期、时长等);视频信息(编解码器、画面比例、帧率...
- rmvb格式视频怎么打开,rmvb转MP4认准这个方法
-
一、rmvb是什么格式? RMVB是一种视频文件格式,其中的VB指的是可变比特率。比起上一代的RM格式,RMVB 格式的画面比较清晰,因为它是降低了静态画面下的比特率。 二、制作rmvb ①...
- 教你用Plex Media Server,把铁威马变成你的“私人好莱坞”!
-
TNAS(铁威马NAS)中可以安装多媒体服务器、影视、PlexMediaServer、EmbyServer作为个人媒体服务器使用。PlexMediaServer可以组织整理TNAS上的媒体...
- 你肯定用过!经典Windows软件被抛弃
-
Windows系统这些年持续更新的过程中,不断融入新的软件和功能的同时,一些经典的应用也渐渐成为了历史……Windows媒体播放器被抛弃Windows系统不断地推陈出新,一些老旧的组件也难免被抛弃,在...
- 博思得Q8标签打印全能手(博思得标签打印机安装教程)
-
2014-12-0905:35:00作者:宋达希【中关村在线办公打印频道原创】服装吊牌、洗涤标签、产品说明标签等都要用到标签打印机,这些标签涵盖多种尺寸的长度和宽度以及材质。另外作为一件商品或者产...
- flv文件用什么播放器打开,这样做不踩雷!
-
FLV是FLASHVIDEO的简称,是随着FlashMX的推出发展而来的视频格式。它的出现有效地解决了视频文件导入Flash后,使导出的SWF文件体积庞大,不能在网络上很好的使用等问题。一、...
- media player怎么转换格式?音频转换神器推荐!
-
Windowsmediaplayer怎么转换格式?WindowsMediaPlayer是微软公司出品的一款多媒体播放器,通常简称“WMP”。提供了编辑音频和视频文件的功能。用户可以使用该软件导...
- 视频参数检查工具更新:MediaInfo 23.10
-
MediaInfo提供有关视频或音频文件的技术和标签信息。信息示例包括编解码器、比特率、每秒帧数、宽度、高度、频道数、持续时间、标题、作者、字幕语言和章节名称。多种方式可以查看信息(文本、工作表、树和...
- 多媒体管理软件:JRiver Media Center 31.0.68 (64位)
-
JRiverMediaCenter64位是适用于大量库的完整媒体解决方案。它组织、播放和标记所有类型的媒体文件,并对Xbox、PS3、UPnP、DLNA和TiVo进行翻录、刻录。JRiverM...
- 一周热门
- 最近发表
- 标签列表
-
- HTML 教程 (33)
- HTML 简介 (35)
- HTML 实例/测验 (32)
- HTML 测验 (32)
- JavaScript 和 HTML DOM 参考手册 (32)
- HTML 拓展阅读 (30)
- HTML常用标签 (29)
- HTML文本框样式 (31)
- HTML滚动条样式 (34)
- HTML5 浏览器支持 (33)
- HTML5 新元素 (33)
- HTML5 WebSocket (30)
- HTML5 代码规范 (32)
- HTML5 标签 (717)
- HTML5 标签 (已废弃) (75)
- HTML5电子书 (32)
- HTML5开发工具 (34)
- HTML5小游戏源码 (34)
- HTML5模板下载 (30)
- HTTP 状态消息 (33)
- HTTP 方法:GET 对比 POST (33)
- 键盘快捷键 (35)
- 标签 (226)
- HTML button formtarget 属性 (30)
- CSS 水平对齐 (Horizontal Align) (30)