02 - 低精度推理¶

⚠️ 时效性说明：本章涉及前沿模型/价格/榜单等信息，可能随版本快速变化；请以论文原文、官方发布页和 API 文档为准。

用更少的比特，跑更快的模型

📎 交叉引用：本章侧重FP16/BF16/INT8/INT4的底层原理与混合精度框架。LLM量化部署实战（GPTQ/AWQ/bitsandbytes工具链）请参考 LLM应用/11-大模型部署 §11.2 和 LLM学习/03-推理服务部署 §4。

📖 章节概述¶

本章将深入探讨低精度推理技术，包括FP16、INT8、INT4和混合精度等方法。这些技术可以显著减少内存占用和计算量，提升推理速度。

🎯 学习目标¶

完成本章后，你将能够：

理解不同精度格式的特点和优势
掌握FP16、INT8、INT4量化的实现方法
了解混合精度推理的原理和应用
能够根据场景选择合适的精度策略

1. 精度格式概述¶

1.1 常见精度格式¶

精度格式	比特数	数值范围	精度	内存占用	速度（理论值）
FP32	32	±3.4e38	高	100%	基准
FP16	16	±6.5e4	中	50%	2-4x
BF16	16	±3.4e38	中	50%	2-4x
INT8	8	-128~127	低	25%	4-8x
INT4	4	-8~7	很低	12.5%	8-16x

注：速度提升为理论值，实际加速效果取决于硬件支持、模型结构和优化程度。

1.2 精度选择指南¶

Text Only

精度选择决策树
├── 需要最高精度？
│   └── FP32 (训练、科学研究)
├── 需要平衡精度和速度？
│   ├── FP16 (推理、训练)
│   └── BF16 (训练，避免溢出)
├── 追求极致速度？
│   ├── INT8 (推荐，精度损失小)
│   └── INT4 (极限优化，需要校准)
└── 混合场景？
    └── 混合精度 (不同层使用不同精度)

2. FP16 推理¶

2.1 FP16 特点¶

优势： - 内存占用减半 - 计算速度提升2-4倍 - 现代GPU原生支持

挑战： - 数值范围较小，容易溢出 - 精度略有损失 - 需要特殊处理梯度

2.2 FP16 推理实现¶

Python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

def fp16_inference(model_name="meta-llama/Llama-2-7b-hf"):
    """
    FP16推理示例

    Args:
        model_name: 模型名称或路径
    """
    # 加载分词器
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    # 加载FP16模型
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.float16,
        device_map="auto"
    )

    # 推理
    prompt = "请介绍一下人工智能的发展历程"
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

    with torch.no_grad():  # 禁用梯度计算，节省内存
        outputs = model.generate(
            **inputs,
            max_length=200,
            do_sample=True,
            temperature=0.7
        )

    result = tokenizer.decode(outputs[0], skip_special_tokens=True)
    print(result)

    return model, tokenizer

# 使用示例
# model, tokenizer = fp16_inference()

2.3 FP16 推理优化¶

Python

import torch
from torch.amp import autocast

def optimized_fp16_inference(model, tokenizer, prompt):
    """
    优化的FP16推理

    Args:
        model: FP16模型
        tokenizer: 分词器
        prompt: 输入提示
    """
    model.eval()  # eval()评估模式

    # 使用自动混合精度
    with torch.no_grad(), autocast('cuda'):
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        outputs = model.generate(
            **inputs,
            max_length=200,
            do_sample=True,
            temperature=0.7
        )

    result = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return result

3. BF16 推理¶

3.1 BF16 vs FP16¶

特性	FP16	BF16
指数位	5位	8位
尾数位	10位	7位
数值范围	±6.5e4	±3.4e38
精度	较高	较低
训练稳定性	一般	更好

3.2 BF16 推理实现¶

Python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

def bf16_inference(model_name="meta-llama/Llama-2-7b-hf"):
    """
    BF16推理示例

    Args:
        model_name: 模型名称或路径
    """
    # 加载分词器
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    # 加载BF16模型
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.bfloat16,
        device_map="auto"
    )

    # 推理
    prompt = "请介绍一下人工智能的发展历程"
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_length=200,
            do_sample=True,
            temperature=0.7
        )

    result = tokenizer.decode(outputs[0], skip_special_tokens=True)
    print(result)

    return model, tokenizer

4. INT8 量化¶

4.1 INT8 量化原理¶

INT8量化将FP32/FP16的权重和激活值转换为8位整数。

量化公式：

\[Q(x) = \text{round}\!\left(\frac{x - z}{s}\right)\]

\[\hat{x} = Q(x) \cdot s + z\]

其中： - \(s\)（scale）：缩放因子，\(s = \dfrac{x_{\max} - x_{\min}}{2^b - 1}\)（\(b\) 为量化位宽） - \(z\)（zero_point）：零点偏移，保证 0 可被精确表示 - \(\hat{x}\)：反量化后的近似值（与原始 \(x\) 存在量化误差）

4.2 INT8 量化实现¶

Python

import torch
import torch.quantization

def int8_quantization(model, dataloader):
    """
    INT8量化

    Args:
        model: 要量化的模型
        dataloader: 用于校准的数据加载器
    """
    # 设置模型为评估模式
    model.eval()

    # 配置量化
    # 注意：'fbgemm'用于x86 CPU，'qnnpack'用于ARM CPU
    # PyTorch 1.13+ 推荐使用 torch.ao.quantization.get_default_qconfig('x86')
    # 或使用 torch.ao.quantization.get_default_qconfig_mapping() 获得更灵活的配置
    model.qconfig = torch.quantization.get_default_qconfig('fbgemm')  # 兼容旧版本

    # 准备量化
    model_prepared = torch.quantization.prepare(model)

    # 使用校准数据进行校准
    print("开始校准...")
    with torch.no_grad():
        for batch_x, _ in dataloader:
            model_prepared(batch_x)

    # 转换为量化模型
    print("转换为量化模型...")
    quantized_model = torch.quantization.convert(model_prepared)

    return quantized_model

# 使用示例
# quantized_model = int8_quantization(model, dataloader)

4.3 动态INT8量化¶

Python

import torch
import torch.quantization

def dynamic_int8_quantization(model):
    """
    动态INT8量化

    动态量化在推理时动态计算激活值的量化参数，
    不需要校准数据。

    Args:
        model: 要量化的模型
    """
    # 设置模型为评估模式
    model.eval()

    # 动态量化
    quantized_model = torch.quantization.quantize_dynamic(
        model,
        {torch.nn.Linear},  # 只量化线性层
        dtype=torch.qint8
    )

    return quantized_model

# 使用示例
# quantized_model = dynamic_int8_quantization(model)

5. INT4 量化¶

5.1 INT4 量化特点¶

优势： - 内存占用仅为FP32的12.5% - 推理速度提升8-16倍 - 可以在有限显存上运行大模型（如7B模型可在8GB显存上运行）

挑战： - 精度损失相对较大（1-5%） - 需要仔细校准和测试 - 对某些小型模型或特殊任务模型效果不佳

5.2 NF4量化类型详解¶

NF4（NormalFloat4）是bitsandbytes库中专门为神经网络权重设计的量化类型，是INT4量化的推荐选择。

5.2.1 NF4的定义和原理¶

NF4是一种基于正态分布优化的4位浮点数表示格式，具有以下特点：

针对正态分布优化：NF4的量化间隔是根据神经网络权重的统计分布特性设计的
非线性量化：使用非线性量化间隔，能够更好地表示正态分布的权重值
16个离散值：将权重映射到16个离散值（2^4=16），这些值经过特殊设计

5.2.2 NF4相对于FP4的优缺点¶

特性	NF4	FP4
精度	更高（针对正态分布优化）	较低（均匀量化）
适用场景	神经网络权重（推荐）	通用浮点数
数值稳定性	更好	一般
性能损失	1-3%	3-5%
内存占用	12.5%	12.5%
计算速度	相同	相同

NF4的优势： - ✅ 针对神经网络优化：NF4的量化间隔是根据神经网络权重的正态分布特性设计的 - ✅ 更低的精度损失：相比FP4，NF4通常能减少1-2%的精度损失 - ✅ 更好的数值稳定性：在极端值情况下表现更稳定 - ✅ 广泛兼容性：支持大多数Transformers模型

NF4的适用场景： - ✅ 推荐场景： - 大语言模型（LLM）的推理（7B+模型） - Transformer架构模型 - 权重呈正态分布的模型 - 需要在有限显存上运行大模型的场景

⚠️ 谨慎使用：
对精度要求极高的科学计算
需要精确数值控制的金融模型
权重分布非常特殊的模型
小型模型（<1B参数）

5.2.3 其他INT4量化类型对比¶

FP4（Float4）：
传统的4位浮点数表示
使用均匀量化间隔
适用于通用浮点数场景
精度损失相对较大（3-5%）
INT4（整数）：
纯整数表示
需要额外的缩放因子和零点
计算速度可能更快
精度损失较大（3-8%）

5.3 INT4量化精度损失与缓解策略¶

5.3.1 精度损失的典型范围¶

模型类型	NF4精度损失	FP4精度损失	适用性
大语言模型（7B+）	1-3%	3-5%	✅ 优秀
中等模型（1B-7B）	2-4%	4-6%	✅ 良好
小型模型（<1B）	3-5%	5-8%	⚠️ 需测试
特殊任务模型	4-8%	6-10%	❌ 不推荐

影响因素： - 模型大小：大型模型通常对量化更鲁棒 - 模型架构：Transformer架构通常效果更好 - 任务类型：生成任务通常比分类任务更敏感 - 训练数据质量：高质量训练数据的模型更稳定

5.3.2 缓解精度损失的策略¶

1. 使用NF4量化类型：

Python

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",  # 使用NF4而非FP4
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True
)

2. 启用双重量化：

Python

bnb_4bit_use_double_quant=True  # 进一步压缩量化参数

3. 使用合适的计算数据类型：

Python

bnb_4bit_compute_dtype=torch.float16  # 或torch.bfloat16

4. 量化后微调（QLoRA）：

Python

from peft import LoraConfig, get_peft_model

# 在INT4量化基础上添加LoRA适配器
lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none"
)
model = get_peft_model(model, lora_config)

5. 混合精度策略： - 关键层使用FP16/BF16 - 非关键层使用INT4 - 输入/输出层保持FP32

5.4 INT4量化最佳实践¶

5.4.1 推荐做法¶

1. 优先使用NF4： - NF4是专门为神经网络优化的量化类型 - 在大多数情况下性能优于FP4 - 适合大多数Transformers模型

2. 启用双重量化： - 可以进一步减少内存占用 - 对精度影响很小 - 推荐配置：bnb_4bit_use_double_quant=True

3. 选择合适的计算数据类型： - FP16：速度更快，适合推理 - BF16：数值范围更大，适合训练 - 推荐配置：bnb_4bit_compute_dtype=torch.float16

4. 充分测试验证： - 在多个任务上测试量化后的模型 - 对比量化前后的性能指标 - 关注实际应用场景的效果

5. 考虑量化后微调： - 使用QLoRA等技术进行微调 - 可以恢复部分精度损失 - 特别适合需要高精度的场景

6. 渐进式应用： - 先测试INT8 - 再尝试INT4 - 根据结果决定是否采用

5.4.2 避免做法¶

1. 不要盲目使用INT4： - 不是所有模型都适合INT4量化 - 小型模型可能精度损失较大 - 需要充分测试验证

2. 不要忽略计算数据类型： - bnb_4bit_compute_dtype的选择很重要 - 使用错误的数据类型可能导致溢出 - 推荐使用FP16或BF16

3. 不要跳过测试： - INT4量化可能导致不可预测的行为 - 必须在目标场景中充分测试 - 记录量化前后的性能对比

4. 不要在所有场景使用相同配置： - 不同模型可能需要不同的量化策略 - 根据模型特点调整参数 - 考虑使用混合精度

5.5 INT4量化实现¶

Python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

def int4_quantization(model_name="meta-llama/Llama-2-7b-hf"):
    """
    INT4量化（推荐使用NF4）

    Args:
        model_name: 模型名称或路径
    """
    # 加载分词器
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    # 配置INT4量化
    quantization_config = BitsAndBytesConfig(
        load_in_4bit=True,  # 启用4位量化
        bnb_4bit_compute_dtype=torch.float16,  # 计算数据类型：FP16
        bnb_4bit_use_double_quant=True,  # 启用双重量化
        bnb_4bit_quant_type="nf4"  # 使用NF4量化类型（推荐）
    )

    # 加载量化模型
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        quantization_config=quantization_config,
        device_map="auto"
    )

    print(f"模型量化完成！")
    print(f"模型大小: {model.get_memory_footprint() / 1e9:.2f} GB")

    return model, tokenizer

# 使用示例
# model, tokenizer = int4_quantization()

5.6 INT4量化配置详解¶

Python

from transformers import BitsAndBytesConfig

def create_int4_config():
    """
    创建INT4量化配置

    返回：
        BitsAndBytesConfig: INT4量化配置对象
    """
    quantization_config = BitsAndBytesConfig(
        # ========== 基础配置 ==========
        load_in_4bit=True,  # 启用4位量化

        # ========== 量化类型选择 ==========
        # "nf4": NormalFloat4（推荐，针对神经网络优化）
        # "fp4": Float4（传统浮点数表示）
        bnb_4bit_quant_type="nf4",

        # ========== 计算数据类型 ==========
        # torch.float16: 16位浮点数（速度更快，适合推理）
        # torch.bfloat16: 16位脑浮点数（数值范围更大，适合训练）
        bnb_4bit_compute_dtype=torch.float16,

        # ========== 双重量化 ==========
        # True: 对量化参数进行二次量化，进一步减少内存
        # False: 不使用双重量化
        bnb_4bit_use_double_quant=True,

        # ========== 其他高级配置 ==========
        # llm_int8_threshold: INT8量化的异常值阈值（默认6.0）
        # llm_int8_skip_modules: 跳过量化的模块列表
        # llm_int8_enable_fp32_cpu_offload: 启用FP32 CPU卸载
    )

    return quantization_config

# 使用示例
# config = create_int4_config()
# model = AutoModelForCausalLM.from_pretrained(
#     model_name,
#     quantization_config=config,
#     device_map="auto"
# )

5.7 不同INT4量化类型对比¶

Python

from transformers import BitsAndBytesConfig
import torch

def compare_quantization_types():
    """
    对比不同INT4量化类型的配置
    """
    configs = {
        "NF4（推荐）": BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.float16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4"
        ),
        "FP4": BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.float16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="fp4"
        ),
        "NF4 + BF16": BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.bfloat16,
            bnb_4bit_use_double_quant=True,
            bnb_4bit_quant_type="nf4"
        ),
        "NF4 + 无双重量化": BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_compute_dtype=torch.float16,
            bnb_4bit_use_double_quant=False,
            bnb_4bit_quant_type="nf4"
        )
    }

    for name, config in configs.items():
        print(f"{name}:")
        print(f"  - 量化类型: {config.bnb_4bit_quant_type}")
        print(f"  - 计算类型: {config.bnb_4bit_compute_dtype}")
        print(f"  - 双重量化: {config.bnb_4bit_use_double_quant}")
        print()

    return configs

# 使用示例
# configs = compare_quantization_types()

6. 混合精度推理¶

6.1 混合精度原理¶

混合精度允许模型的不同层使用不同的精度格式。

典型策略： - 输入/输出层: FP32 - 注意力层: FP16/BF16 - 前馈层: INT8/INT4

6.2 混合精度实现¶

Python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

def mixed_precision_inference(model_name="meta-llama/Llama-2-7b-hf"):
    """
    混合精度推理

    Args:
        model_name: 模型名称或路径
    """
    # 加载分词器
    tokenizer = AutoTokenizer.from_pretrained(model_name)

    # 配置混合精度（使用INT4量化）
    quantization_config = BitsAndBytesConfig(
        load_in_4bit=True,  # 启用4位量化
        bnb_4bit_compute_dtype=torch.float16,  # 计算数据类型：FP16
        bnb_4bit_use_double_quant=True,  # 启用双重量化
        bnb_4bit_quant_type="nf4"  # 使用NF4量化类型（推荐）
    )

    # 加载模型
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        quantization_config=quantization_config,
        torch_dtype=torch.float16,
        device_map="auto"
    )

    # 推理
    prompt = "请介绍一下人工智能的发展历程"
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_length=200,
            do_sample=True,
            temperature=0.7
        )

    result = tokenizer.decode(outputs[0], skip_special_tokens=True)
    print(result)

    return model, tokenizer

6.3 自定义混合精度¶

Python

import torch
import torch.nn as nn

class MixedPrecisionModel(nn.Module):  # 继承nn.Module定义网络层
    """
    自定义混合精度模型
    """
    def __init__(self, input_size, hidden_size, output_size):
        super().__init__()  # super()调用父类方法
        # 输入层使用FP32
        self.input_layer = nn.Linear(input_size, hidden_size).float()

        # 隐藏层使用FP16
        self.hidden_layer = nn.Linear(hidden_size, hidden_size).half()

        # 输出层使用FP32
        self.output_layer = nn.Linear(hidden_size, output_size).float()

        self.relu = nn.ReLU()

    def forward(self, x):
        # FP32
        x = self.input_layer(x)
        x = self.relu(x)

        # FP16
        x = x.half()
        x = self.hidden_layer(x)
        x = self.relu(x)

        # FP32
        x = x.float()
        x = self.output_layer(x)

        return x

# 使用示例
# model = MixedPrecisionModel(784, 256, 10)

7. 性能对比¶

7.1 性能测试脚本¶

Python

import torch
import time
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

class PerformanceBenchmark:
    """
    性能基准测试
    """
    def __init__(self, model_name):
        self.model_name = model_name
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.results = {}

    def load_model(self, precision="fp32"):
        """
        加载不同精度的模型

        Args:
            precision: 精度类型 ("fp32", "fp16", "int8", "int4")
        """
        if precision == "fp32":
            model = AutoModelForCausalLM.from_pretrained(
                self.model_name,
                device_map="auto"
            )
        elif precision == "fp16":
            model = AutoModelForCausalLM.from_pretrained(
                self.model_name,
                torch_dtype=torch.float16,
                device_map="auto"
            )
        elif precision == "int8":
            quantization_config = BitsAndBytesConfig(
                load_in_8bit=True
            )
            model = AutoModelForCausalLM.from_pretrained(
                self.model_name,
                quantization_config=quantization_config,
                device_map="auto"
            )
        elif precision == "int4":
            # INT4量化配置（推荐使用NF4）
            quantization_config = BitsAndBytesConfig(
                load_in_4bit=True,  # 启用4位量化
                bnb_4bit_compute_dtype=torch.float16,  # 计算数据类型：FP16
                bnb_4bit_use_double_quant=True,  # 启用双重量化
                bnb_4bit_quant_type="nf4"  # 使用NF4量化类型（推荐）
            )
            model = AutoModelForCausalLM.from_pretrained(
                self.model_name,
                quantization_config=quantization_config,
                device_map="auto"
            )
        else:
            raise ValueError(f"Unknown precision: {precision}")

        return model

    def benchmark(self, model, prompt, num_runs=10):
        """
        运行基准测试

        Args:
            model: 要测试的模型
            prompt: 测试提示
            num_runs: 运行次数
        """
        model.eval()
        inputs = self.tokenizer(prompt, return_tensors="pt").to(model.device)

        # 预热
        with torch.no_grad():
            _ = model.generate(**inputs, max_length=50)

        # 测试
        times = []
        with torch.no_grad():
            for _ in range(num_runs):
                start = time.time()
                _ = model.generate(**inputs, max_length=50)
                end = time.time()
                times.append(end - start)

        avg_time = sum(times) / len(times)
        memory = model.get_memory_footprint() / 1e9

        return {
            "avg_time": avg_time,
            "memory": memory,
            "tokens_per_second": 50 / avg_time
        }

    def compare_precisions(self, prompt="Hello, how are you?"):
        """
        对比不同精度的性能
        """
        precisions = ["fp32", "fp16", "int8", "int4"]

        print("开始性能对比测试...")
        print(f"测试提示: {prompt}\n")

        for precision in precisions:
            print(f"加载 {precision.upper()} 模型...")
            model = self.load_model(precision)

            print(f"运行 {precision.upper()} 基准测试...")
            results = self.benchmark(model, prompt)

            self.results[precision] = results

            print(f"{precision.upper()} 结果:")
            print(f"  平均时间: {results['avg_time']:.4f}s")
            print(f"  内存占用: {results['memory']:.2f} GB")
            print(f"  生成速度: {results['tokens_per_second']:.2f} tokens/s")
            print()

        return self.results

# 使用示例
# benchmark = PerformanceBenchmark("meta-llama/Llama-2-7b-hf")
# results = benchmark.compare_precisions()

8. 练习题¶

基础练习¶

实现简单的FP16转换

Python

# TODO: 将FP32张量转换为FP16
def convert_to_fp16(tensor_fp32):
    # 你的代码
    pass

实现INT8量化

Python

# TODO: 实现简单的INT8量化
def quantize_int8(tensor_fp32):
    # 你的代码
    pass

进阶练习¶

实现动态量化

Python

# TODO: 实现动态量化推理
class DynamicQuantizationInference:
    def __init__(self, model):
        # 你的代码
        pass

    def forward(self, x):
        # 你的代码
        pass

实现混合精度推理

Python

# TODO: 实现自定义混合精度策略
class CustomMixedPrecision:
    def __init__(self, model, precision_map):
        # 你的代码
        pass

    def apply_precision(self):
        # 你的代码
        pass

项目练习¶

创建精度对比工具
支持多种精度格式
自动生成性能报告
可视化对比结果

9. 最佳实践¶

✅ 推荐做法¶

渐进式降精度
先测试FP16
再尝试INT8
最后考虑INT4
充分测试
在多个任务上测试
记录性能指标
关注实际应用效果
使用成熟工具
bitsandbytes
GPTQ
AWQ

❌ 避免做法¶

盲目追求低精度
不要直接使用INT4
考虑精度损失
评估实际需求
忽略校准
INT4需要仔细校准
使用代表性数据
多次测试验证
单一场景测试
不要只在一个任务上测试
考虑多种应用场景
全面评估性能

10. GGUF格式与llama.cpp生态¶

10.1 GGUF格式概述¶

GGUF（GGML Universal Format）是llama.cpp项目推出的一种通用模型格式，专为高效推理设计。

GGUF vs GGML¶

特性	GGUF	GGML（已弃用）
扩展性	单文件，易于分发	多文件，复杂
元数据	丰富的键值对	有限
量化支持	多种量化类型	较少
架构支持	广泛（LLaMA、Mistral等）	有限
维护状态	活跃开发	已弃用

10.2 GGUF量化等级详解¶

GGUF支持多种量化等级，从Q2到Q8不等：

量化类型	比特/权重	文件大小（7B模型）	精度损失	推荐场景
Q8_0	8	~7GB	极小	最高精度需求
Q6_K	6	~5.5GB	很小	高精度需求
Q5_K_M	5	~4.8GB	小	平衡精度和大小
Q5_K_S	5	~4.6GB	小	平衡（更快）
Q4_K_M	4	~4.1GB	中等	推荐默认
Q4_K_S	4	~3.9GB	中等	速度优先
Q4_0	4	~3.8GB	较大	最快速度
Q3_K_M	3	~3.3GB	较大	极限压缩
Q2_K	2	~2.7GB	大	测试/开发

量化命名规则： - Q4_0: 4位量化，无缩放 - Q4_K_M: 4位K-量化，中等（Medium）版本 - Q4_K_S: 4位K-量化，小型（Small）版本

10.3 GGUF模型转换¶

Python

# 将Hugging Face模型转换为GGUF格式
# 需要使用llama.cpp的转换脚本

# 步骤1: 克隆llama.cpp
# git clone https://github.com/ggerganov/llama.cpp
# cd llama.cpp
# pip install -r requirements.txt

# 步骤2: 下载原始模型
# from huggingface_hub import snapshot_download
# snapshot_download("meta-llama/Llama-2-7b-hf", local_dir="./llama2-7b")

# 步骤3: 转换为GGUF（FP16）
# python convert-hf-to-gguf.py ./llama2-7b --outfile llama2-7b-f16.gguf --outtype f16

# 步骤4: 量化（例如Q4_K_M）
# ./llama-quantize llama2-7b-f16.gguf llama2-7b-q4_k_m.gguf Q4_K_M

10.4 llama.cpp使用示例¶

Python

import subprocess
import json

def run_llama_cpp(model_path, prompt, n_predict=128, temp=0.7):
    """
    使用llama.cpp运行GGUF模型

    Args:
        model_path: GGUF模型路径
        prompt: 输入提示
        n_predict: 生成的token数量
        temp: 温度参数
    """
    cmd = [
        "./llama-cli",  # llama.cpp主程序
        "-m", model_path,
        "-p", prompt,
        "-n", str(n_predict),
        "--temp", str(temp),
        "-ngl", "99",  # GPU层数（99表示全部）
        "-c", "4096",  # 上下文长度
        "-b", "512",   # 批处理大小
        "--no-display-prompt"
    ]

    result = subprocess.run(cmd, capture_output=True, text=True)
    return result.stdout

# 使用示例
# output = run_llama_cpp(
#     "./models/llama2-7b-q4_k_m.gguf",
#     "请介绍一下人工智能的发展历程"
# )
# print(output)

10.5 Python绑定（llama-cpp-python）¶

Python

from llama_cpp import Llama

def llama_cpp_python_example():
    """
    使用llama-cpp-python库进行推理
    """
    # 加载模型
    llm = Llama(
        model_path="./models/llama2-7b-q4_k_m.gguf",
        n_gpu_layers=-1,  # -1表示全部加载到GPU
        n_ctx=4096,       # 上下文长度
        verbose=False
    )

    # 生成文本
    output = llm(
        "请介绍一下人工智能的发展历程",
        max_tokens=200,
        temperature=0.7,
        top_p=0.9,
        echo=False
    )

    print(output['choices'][0]['text'])
    return llm

# 使用示例
# llm = llama_cpp_python_example()

10.6 GGUF最佳实践¶

量化选择建议： - Q4_K_M: 默认推荐，平衡精度和大小 - Q5_K_M: 需要更高精度时选择 - Q8_0: 对精度要求极高的场景

性能优化：

Bash

# 启用GPU加速
./llama-cli -m model.gguf -p "prompt" -ngl 99

# 启用Flash Attention
./llama-cli -m model.gguf -p "prompt" -fa

# 批处理推理
./llama-server -m model.gguf --port 8080 -np 4

11. TensorRT-LLM¶

11.1 TensorRT-LLM概述¶

TensorRT-LLM是NVIDIA推出的高性能大语言模型推理优化库，专门为NVIDIA GPU优化。

核心特性¶

特性	描述
内核优化	针对Transformer的专用CUDA内核
量化支持	INT8、INT4、FP8量化
注意力优化	Flash Attention、Multi-Query Attention
批处理	In-flight Batching动态批处理
分布式推理	多GPU张量并行
KV Cache	Paged KV Cache管理

11.2 TensorRT-LLM vs 其他方案¶

特性	TensorRT-LLM	vLLM	llama.cpp
硬件支持	NVIDIA GPU	NVIDIA GPU	CPU/GPU/Apple
性能	最高	高	中等
易用性	中等	高	高
量化选项	丰富	有限	丰富
生产就绪	✅	✅	✅

11.3 TensorRT-LLM使用示例¶

Python

import tensorrt_llm
from tensorrt_llm.runtime import ModelConfig, SamplingConfig
from tensorrt_llm.builder import Builder

def build_tensorrt_engine(model_path, output_path, dtype="float16"):
    """
    构建TensorRT-LLM引擎

    Args:
        model_path: Hugging Face模型路径
        output_path: 引擎输出路径
        dtype: 数据类型
    """
    # 创建构建器
    builder = Builder()

    # 模型配置
    config = {
        "model_dir": model_path,
        "dtype": dtype,
        "max_batch_size": 8,
        "max_input_len": 2048,
        "max_output_len": 512,
        "max_beam_width": 1,
        "use_gpt_attention_plugin": True,
        "use_gemm_plugin": True,
        "use_layernorm_plugin": True,
    }

    # 构建引擎
    builder.build(config, output_path)
    print(f"TensorRT引擎构建完成: {output_path}")

# 使用示例
# build_tensorrt_engine(
#     "meta-llama/Llama-2-7b-hf",
#     "./trt_engines/llama2-7b"
# )

11.4 TensorRT-LLM推理¶

Python

import tensorrt_llm
from tensorrt_llm.runtime import GenerationSession

def tensorrt_llm_inference(engine_path, prompts):
    """
    使用TensorRT-LLM进行推理

    Args:
        engine_path: TensorRT引擎路径
        prompts: 输入提示列表
    """
    # 加载引擎
    session = GenerationSession.from_engine(engine_path)

    # 采样配置
    sampling_config = SamplingConfig(
        max_new_tokens=200,
        temperature=0.7,
        top_k=50,
        top_p=0.9
    )

    # 批量推理
    outputs = session.generate(prompts, sampling_config)

    for prompt, output in zip(prompts, outputs):
        print(f"提示: {prompt}")
        print(f"生成: {output}\n")

    return outputs

# 使用示例
# outputs = tensorrt_llm_inference(
#     "./trt_engines/llama2-7b",
#     ["什么是机器学习？", "解释深度学习"]
# )

11.5 TensorRT-LLM量化¶

Python

def quantize_tensorrt_llm(model_path, output_path, quantization="int8"):
    """
    TensorRT-LLM量化配置

    Args:
        model_path: 模型路径
        output_path: 输出路径
        quantization: 量化类型（int8, int4, fp8）
    """
    config = {
        "model_dir": model_path,
        "dtype": "float16",
        # 量化配置
        "quantization": {
            "enabled": True,
            "type": quantization,
            "calib_dataset": "cnn_dailymail",
            "calib_samples": 512
        },
        # INT4特定配置
        "int4": {
            "group_size": 128,
            "zero_point": True
        },
        # INT8特定配置
        "int8": {
            "smoothquant_alpha": 0.5
        }
    }

    print(f"量化配置: {config}")
    return config

# 使用示例
# config = quantize_tensorrt_llm(
#     "meta-llama/Llama-2-7b-hf",
#     "./trt_engines/llama2-7b-int8",
#     "int8"
# )

11.6 TensorRT-LLM性能优化¶

推荐配置：

Python

optimized_config = {
    # 基础配置
    "max_batch_size": 32,
    "max_input_len": 4096,
    "max_output_len": 512,

    # 插件启用
    "use_gpt_attention_plugin": True,  # Flash Attention
    "use_gemm_plugin": True,           # 优化矩阵乘法
    "use_layernorm_plugin": True,      # 优化LayerNorm

    # 高级优化
    "enable_context_fmha": True,       # Flash Multi-Head Attention
    "remove_input_padding": True,      # 移除输入padding
    "paged_kv_cache": True,            # Paged KV Cache

    # 并行配置
    "tensor_parallel": 2,              # 张量并行度
    "pipeline_parallel": 1             # 流水线并行度
}

12. 其他部署技术¶

12.1 vLLM¶

vLLM是一个高性能的大语言模型推理和服务框架，以其高效的KV Cache管理著称。

核心特性¶

特性	描述
PagedAttention	高效的KV Cache内存管理
连续批处理	动态批处理请求
量化支持	AWQ、GPTQ、FP8
分布式推理	张量并行
OpenAI兼容API	易于集成

vLLM使用示例¶

Python

from vllm import LLM, SamplingParams

def vllm_inference(model_path):
    """
    vLLM推理示例

    Args:
        model_path: 模型路径
    """
    # 加载模型
    llm = LLM(
        model=model_path,
        tensor_parallel_size=1,
        gpu_memory_utilization=0.9,
        max_model_len=4096
    )

    # 采样参数
    sampling_params = SamplingParams(
        temperature=0.7,
        top_p=0.9,
        max_tokens=200,
        repetition_penalty=1.1
    )

    # 批量推理
    prompts = [
        "什么是机器学习？",
        "解释深度学习的概念",
        "自然语言处理有哪些应用？"
    ]

    outputs = llm.generate(prompts, sampling_params)

    for output in outputs:
        print(f"提示: {output.prompt}")
        print(f"生成: {output.outputs[0].text}\n")

    return llm

# 使用示例
# llm = vllm_inference("meta-llama/Llama-2-7b-hf")

vLLM服务器部署¶

Python

# 启动vLLM OpenAI兼容服务器
# python -m vllm.entrypoints.openai.api_server \
#     --model meta-llama/Llama-2-7b-hf \
#     --host 0.0.0.0 \
#     --port 8000 \
#     --tensor-parallel-size 1

# 客户端调用
import openai

client = openai.OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="dummy"
)

response = client.chat.completions.create(
    model="meta-llama/Llama-2-7b-hf",
    messages=[
        {"role": "user", "content": "什么是机器学习？"}
    ],
    temperature=0.7,
    max_tokens=200
)

print(response.choices[0].message.content)

12.2 ONNX Runtime¶

ONNX Runtime是微软推出的跨平台推理引擎，支持多种硬件后端。

ONNX Runtime特点¶

特性	描述
跨平台	Windows、Linux、macOS
硬件支持	CPU、GPU、NPU
量化支持	INT8、INT4量化
优化Pass	图优化、算子融合

ONNX导出与推理¶

Python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
import onnxruntime as ort

def export_to_onnx(model_path, output_path):
    """
    将PyTorch模型导出为ONNX格式

    Args:
        model_path: 模型路径
        output_path: ONNX输出路径
    """
    model = AutoModelForCausalLM.from_pretrained(model_path)
    tokenizer = AutoTokenizer.from_pretrained(model_path)

    model.eval()

    # 创建示例输入
    dummy_input = tokenizer("Hello", return_tensors="pt")

    # 导出ONNX
    torch.onnx.export(
        model,
        (dummy_input["input_ids"], dummy_input["attention_mask"]),
        output_path,
        input_names=["input_ids", "attention_mask"],
        output_names=["logits"],
        dynamic_axes={
            "input_ids": {0: "batch", 1: "sequence"},
            "attention_mask": {0: "batch", 1: "sequence"},
            "logits": {0: "batch", 1: "sequence"}
        },
        opset_version=14
    )

    print(f"ONNX模型导出完成: {output_path}")

def onnx_inference(onnx_path, prompt):
    """
    ONNX Runtime推理

    Args:
        onnx_path: ONNX模型路径
        prompt: 输入提示
    """
    # 创建推理会话
    session = ort.InferenceSession(
        onnx_path,
        providers=['CUDAExecutionProvider', 'CPUExecutionProvider']
    )

    # 准备输入
    tokenizer = AutoTokenizer.from_pretrained("gpt2")
    inputs = tokenizer(prompt, return_tensors="np")

    # 推理
    outputs = session.run(
        None,
        {
            "input_ids": inputs["input_ids"].astype(np.int64),
            "attention_mask": inputs["attention_mask"].astype(np.int64)
        }
    )

    return outputs

# 使用示例
# export_to_onnx("gpt2", "./gpt2.onnx")
# outputs = onnx_inference("./gpt2.onnx", "Hello world")

12.3 部署技术对比¶

技术	优势	劣势	适用场景
vLLM	高吞吐、PagedAttention	仅NVIDIA GPU	生产服务
TensorRT-LLM	最高性能	仅NVIDIA、复杂	企业级部署
llama.cpp	跨平台、易用	性能中等	边缘/开发
ONNX Runtime	跨平台、广泛支持	LLM优化有限	通用推理
AWQ	精度好、速度快	需要校准	量化部署

13. 部署选型指南¶

13.1 场景化选型¶

Text Only

部署场景决策树
├── 生产环境高吞吐
│   ├── NVIDIA GPU？
│   │   ├── 是 → vLLM或TensorRT-LLM
│   │   └── 否 → llama.cpp（CPU优化）
│   └── 需要最低延迟？
│       └── TensorRT-LLM
├── 边缘设备/本地部署
│   ├── Apple Silicon？
│   │   └── llama.cpp（Metal优化）
│   ├── CPU only？
│   │   └── llama.cpp + GGUF Q4_K_M
│   └── 有限GPU显存？
│       └── AWQ/GPTQ量化 + vLLM
├── 开发/测试
│   ├── 快速迭代？
│   │   └── Hugging Face + bitsandbytes
│   └── 跨平台测试？
│       └── ONNX Runtime
└── 云服务
    ├── AWS → Hugging Face Inference
    ├── GCP → Vertex AI
    └── Azure → Azure ML

13.2 性能对比表¶

框架	吞吐量(tokens/s)	延迟(ms)	显存效率	易用性
TensorRT-LLM	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐
vLLM	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
llama.cpp	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
HF+bnb	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
ONNX Runtime	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐

13.3 量化技术选型¶

量化技术	精度保持	速度提升	显存节省	推荐场景
AWQ	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	通用LLM量化
GPTQ	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	高精度需求
GGUF Q4_K_M	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	边缘部署
bitsandbytes NF4	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	开发测试
TensorRT INT8	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	生产环境

13.4 硬件选型建议¶

硬件配置	推荐方案	模型规模
8GB显存	GGUF Q4_K_M / AWQ INT4	7B-13B
16GB显存	vLLM FP16 / AWQ INT4	7B-34B
24GB显存	vLLM FP16 / TensorRT-LLM	7B-70B
48GB显存	TensorRT-LLM / 多卡并行	70B-180B
CPU only	llama.cpp + GGUF Q4_0	7B-13B
Apple M系列	llama.cpp + Metal	7B-34B

13.5 选型决策矩阵¶

Python

def select_deployment_strategy(
    gpu_memory_gb: float,
    is_nvidia: bool,
    throughput_priority: str,  # "high", "medium", "low"
    ease_of_use: str,  # "high", "medium", "low"
    model_size_b: float
) -> dict:
    """
    部署策略选择工具

    Args:
        gpu_memory_gb: GPU显存大小（GB）
        is_nvidia: 是否为NVIDIA GPU
        throughput_priority: 吞吐量优先级
        ease_of_use: 易用性要求
        model_size_b: 模型大小（B参数）

    Returns:
        dict: 推荐的部署策略
    """
    recommendation = {
        "framework": "",
        "quantization": "",
        "config": {}
    }

    # 显存不足或非NVIDIA GPU
    if gpu_memory_gb < 16 or not is_nvidia:
        recommendation["framework"] = "llama.cpp"
        recommendation["quantization"] = "GGUF Q4_K_M"
        recommendation["config"] = {
            "n_gpu_layers": -1,
            "n_ctx": 4096
        }
    # 高吞吐量需求
    elif throughput_priority == "high":
        if ease_of_use == "high":
            recommendation["framework"] = "vLLM"
            recommendation["quantization"] = "AWQ INT4"
        else:
            recommendation["framework"] = "TensorRT-LLM"
            recommendation["quantization"] = "INT8"
    # 平衡需求
    else:
        recommendation["framework"] = "vLLM"
        recommendation["quantization"] = "FP16"

    return recommendation

# 使用示例
# strategy = select_deployment_strategy(
#     gpu_memory_gb=24,
#     is_nvidia=True,
#     throughput_priority="high",
#     ease_of_use="medium",
#     model_size_b=7
# )
# print(strategy)

14. 总结¶

本章介绍了低精度推理的核心技术：

FP16: 平衡精度和速度
BF16: 更好的训练稳定性
INT8: 推荐的推理精度
INT4: 极限优化选项
混合精度: 灵活的精度策略
GGUF: llama.cpp生态的通用格式
TensorRT-LLM: NVIDIA高性能推理
vLLM: 高吞吐服务框架
ONNX Runtime: 跨平台推理

选择合适的精度格式和部署框架需要综合考虑性能、精度、硬件和应用场景。

15. 下一步¶

继续学习03-分布式推理，了解如何通过分布式技术进一步提升推理性能。