大模型部署¶

⚠️ 时效性说明：本章涉及前沿模型/价格/榜单等信息，可能随版本快速变化；请以论文原文、官方发布页和 API 文档为准。

📖 章节导读¶

大模型部署是将训练好的大模型部署到生产环境,使其能够为实际应用提供服务。本章将深入探讨大模型部署的原理、方法和最佳实践。

🎯 学习目标¶

理解大模型部署的核心概念
掌握模型量化和压缩技术
学会使用主流部署框架
了解部署优化策略
掌握大厂面试中的相关问题

11.1 部署概述¶

11.1.1 什么是模型部署¶

定义:模型部署是将训练好的模型集成到生产环境中,使其能够接收输入、进行推理并返回结果的过程。

核心流程:

模型准备:准备模型文件和依赖
服务封装:封装模型为API服务
部署上线:部署到服务器或云平台
监控运维:监控性能和稳定性
持续优化:根据反馈优化

部署挑战:

资源需求:大模型需要大量计算资源
延迟要求:需要快速响应
并发处理:需要处理高并发
成本控制:需要控制部署成本
稳定性:需要保证服务稳定

11.1.2 部署方式¶

主要方式:

本地部署:
部署在本地服务器
完全控制
成本较高
云部署:
部署在云平台
弹性扩展
按需付费
边缘部署:
部署在边缘设备
低延迟
资源受限
Serverless:
无服务器架构
自动扩展
成本优化

选择建议:

本地部署:数据敏感、需要完全控制
云部署:需要弹性扩展、快速部署
边缘部署:需要低延迟、离线能力
Serverless:流量波动大、成本敏感

11.1.3 部署架构¶

典型架构:

Text Only

客户端 → 负载均衡 → API网关 → 模型服务 → 模型推理 → 返回结果

核心组件:

负载均衡:分发请求到多个实例
API网关:统一API入口
模型服务:提供推理服务
缓存层:缓存常用请求
监控告警:监控性能和异常

11.2 模型量化¶

11.2.1 量化概述¶

定义:量化是将模型参数从高精度(如FP32)转换为低精度(如FP16、INT8、INT4)的技术,以减少模型大小和计算成本。

量化类型:

FP32 → FP16:
半精度浮点
显存减少50%
性能损失小
FP32 → INT8:
8位整数
显存减少75%
性能损失中等
FP32 → INT4:
4位整数
显存减少87.5%
性能损失较大

量化对比:

精度	显存占用	相对比例	性能损失
FP32	100%	100%	0%
FP16	50%	50%	<1%
INT8	25%	25%	1-3%
INT4	12.5%	12.5%	3-5%

11.2.2 量化实现¶

使用Transformers:

Python

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

# FP16量化
model_fp16 = AutoModelForCausalLM.from_pretrained(
    "gpt2",
    torch_dtype=torch.float16
)

# INT8量化
model_int8 = AutoModelForCausalLM.from_pretrained(
    "gpt2",
    load_in_8bit=True,
    device_map="auto"
)

# INT4量化
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)

model_int4 = AutoModelForCausalLM.from_pretrained(
    "gpt2",
    quantization_config=bnb_config,
    device_map="auto"
)

# 比较显存占用
def get_model_size(model):
    """获取模型大小"""
    param_size = 0
    for param in model.parameters():
        param_size += param.nelement() * param.element_size()
    return param_size / (1024 ** 2)  # MB

print(f"FP16模型大小: {get_model_size(model_fp16):.2f} MB")
print(f"FP32模型大小(估算): {get_model_size(model_fp16) * 2:.2f} MB")  # 估算值: FP16字节数 × 2，仅当所有参数均为FP16时准确
print(f"INT8模型大小: {get_model_size(model_int8):.2f} MB")
print(f"INT4模型大小: {get_model_size(model_int4):.2f} MB")

使用AutoGPTQ:

Python

from transformers import AutoModelForCausalLM, AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig

# 量化配置（注意：BaseQuantizeConfig 不接受 model_name_or_path 参数）
quantize_config = BaseQuantizeConfig(
    bits=4,  # 量化位数
    group_size=128,  # 组大小
    damp_percent=0.01,
    desc_act=False,
    sym=True,
    true_sequential=True,
)

# 加载并量化模型
model = AutoGPTQForCausalLM.from_pretrained(
    "gpt2",
    quantize_config=quantize_config,
    device_map="auto"
)

# 保存量化模型
model.save_quantized("./gpt2-gptq")

11.2.3 量化优化¶

优化策略:

选择合适的量化精度:
权衡性能和精度
根据应用场景选择
使用量化感知训练:
在训练时考虑量化
减少量化损失
混合精度:
不同层使用不同精度
优化性能和精度
后训练量化(PTQ):
训练后进行量化
使用校准数据

代码实现:

Python

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# PyTorch 2.0+ 原生SDPA优化（替代已废弃的BetterTransformer）
# 方式1: 自动启用SDPA（PyTorch 2.0+默认）
model = AutoModelForCausalLM.from_pretrained(
    "gpt2",
    torch_dtype=torch.float16,
    device_map="auto"
)

# 方式2: 显式指定SDPA注意力实现
model = AutoModelForCausalLM.from_pretrained(
    "gpt2",
    torch_dtype=torch.float16,
    attn_implementation="sdpa",  # 使用PyTorch原生SDPA
    device_map="auto"
)

# 使用bitsandbytes进行4-bit量化
model = AutoModelForCausalLM.from_pretrained(
    "gpt2",
    load_in_4bit=True,
    device_map="auto"
)

# 保存优化模型
model.save_pretrained("./gpt2-optimized")

⚠️ 注意：optimum.bettertransformer.BetterTransformer 已在 optimum 2.0.0 中废弃。PyTorch 2.0+ 原生支持 torch.nn.functional.scaled_dot_product_attention（SDPA），HuggingFace Transformers 已直接内置 SDPA 支持，无需额外库。

11.3 部署框架¶

11.3.1 vLLM¶

简介:vLLM是一个高性能的大模型推理服务框架,支持多种优化技术。

安装:

Bash

pip install vllm

使用示例:

Python

from vllm import LLM, SamplingParams

# 初始化LLM
llm = LLM(
    model="gpt2",
    tensor_parallel_size=1,  # 张量并行大小
    gpu_memory_utilization=0.9,  # GPU显存利用率
    max_model_len=2048,  # 最大序列长度
)

# 采样参数
sampling_params = SamplingParams(
    temperature=0.7,
    top_p=0.95,
    max_tokens=100
)

# 生成
prompts = ["你好!", "介绍一下人工智能"]
outputs = llm.generate(prompts, sampling_params)

# 打印结果
for output in outputs:
    print(f"Prompt: {output.prompt}")
    print(f"Output: {output.outputs[0].text}\n")

启动服务:

📝 版本说明：vLLM v0.4+ 推荐使用 vllm serve 命令替代 python -m vllm.entrypoints.openai.api_server。下方为旧版写法，仅供参考。

Bash

# 启动vLLM服务（旧版CLI）
python -m vllm.entrypoints.api_server \
    --model gpt2 \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.9 \
    --port 8000

11.3.2 TGI (Text Generation Inference)¶

简介:TGI是Hugging Face开发的文本推理服务框架。

安装:

Bash

# 使用Docker
docker run --gpus all --shm-size 1g -p 8080:80 \
  -v $PWD/data:/data \
  ghcr.io/huggingface/text-generation-inference:latest \
  --model-id gpt2

使用示例:

Python

import requests

# API端点
api_url = "http://localhost:8080/generate"

# 请求参数
payload = {
    "inputs": "你好!",
    "parameters": {
        "max_new_tokens": 100,
        "temperature": 0.7,
        "top_p": 0.95
    }
}

# 发送请求
response = requests.post(api_url, json=payload)
result = response.json()

# 打印结果
print(f"生成文本: {result['generated_text']}")

11.3.3 FastAPI部署¶

使用FastAPI封装模型:

Python

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 初始化FastAPI
app = FastAPI(title="大模型API")

# 加载模型
model_name = "gpt2"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 设置设备
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)  # .to(device)将数据移至GPU/CPU

# 请求模型
class GenerationRequest(BaseModel):  # Pydantic BaseModel：自动数据验证和序列化
    text: str
    max_length: int = 100
    temperature: float = 0.7
    top_p: float = 0.95

# 响应模型
class GenerationResponse(BaseModel):
    generated_text: str

@app.post("/generate", response_model=GenerationResponse)
async def generate(request: GenerationRequest):  # async def定义协程函数
    """生成文本"""
    try:  # try/except捕获异常，防止程序崩溃
        # 编码输入
        inputs = tokenizer(
            request.text,
            return_tensors="pt",
            truncation=True,
            max_length=512
        ).to(device)

        # 生成
        with torch.no_grad():  # 禁用梯度计算，节省内存（推理时使用）
            outputs = model.generate(
                **inputs,
                max_length=request.max_length,
                temperature=request.temperature,
                top_p=request.top_p,
                do_sample=True
            )

        # 解码输出
        generated_text = tokenizer.decode(
            outputs[0],
            skip_special_tokens=True
        )

        return GenerationResponse(generated_text=generated_text)

    except Exception as e:
        raise HTTPException(status_code=500, detail=str(e))

@app.get("/health")
async def health():
    """健康检查"""
    return {"status": "healthy"}

# 启动服务
if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

使用Docker部署:

Docker

# Dockerfile
FROM python:3.9-slim

WORKDIR /app

# 安装依赖
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

# 复制代码
COPY . .

# 暴露端口
EXPOSE 8000

# 启动服务
CMD ["python", "app.py"]

Bash

# 构建镜像
docker build -t llm-api .

# 运行容器
docker run --gpus all -p 8000:8000 llm-api

11.4 部署优化¶

11.4.1 性能优化¶

优化策略:

批处理:
批量处理请求
提高吞吐量
缓存:
缓存常用请求
减少重复计算
异步处理:
异步处理请求
提高并发能力
模型并行:
分布式推理
处理更大模型

代码实现:

Python

from fastapi import FastAPI
from concurrent.futures import ThreadPoolExecutor
import asyncio  # Python标准异步库

app = FastAPI()

# 线程池
executor = ThreadPoolExecutor(max_workers=4)  # ThreadPoolExecutor线程池并发执行

# 缓存
cache = {}

async def generate_async(request: GenerationRequest):
    """异步生成"""
    # 检查缓存
    cache_key = f"{request.text}_{request.max_length}"
    if cache_key in cache:
        return cache[cache_key]

    # 在线程池中执行
    loop = asyncio.get_event_loop()
    result = await loop.run_in_executor(  # await等待异步操作完成
        executor,
        generate_sync,
        request
    )

    # 缓存结果
    cache[cache_key] = result

    return result

@app.post("/generate")
async def generate(request: GenerationRequest):
    """生成接口"""
    result = await generate_async(request)
    return result

11.4.2 成本优化¶

优化策略:

按需扩展:
根据流量自动扩展
降低闲置成本
使用竞价实例:
使用云竞价实例
大幅降低成本
模型压缩:
使用量化模型
减少资源需求
多租户:
多个应用共享资源
提高资源利用率

代码实现:

Python

from kubernetes import client, config

# Kubernetes自动扩展
config.load_kube_config()
autoscaling_api = client.AutoscalingV2Api()

# 配置自动扩展
scaling_policy = {
    "apiVersion": "autoscaling/v2",
    "kind": "HorizontalPodAutoscaler",
    "metadata": {
        "name": "llm-api-hpa"
    },
    "spec": {
        "scaleTargetRef": {
            "apiVersion": "apps/v1",
            "kind": "Deployment",
            "name": "llm-api"
        },
        "minReplicas": 1,
        "maxReplicas": 10,
        "metrics": [
            {
                "type": "Resource",
                "resource": {
                    "name": "cpu",
                    "target": {
                        "type": "Utilization",
                        "averageUtilization": 70
                    }
                }
            }
        ]
    }
}

autoscaling_api.create_namespaced_horizontal_pod_autoscaler(
    namespace="default",
    body=scaling_policy
)

11.4.3 监控告警¶

监控指标:

性能指标:
请求延迟
吞吐量(QPS)
错误率
资源指标:
GPU利用率
显存占用
CPU使用率
业务指标:
请求成功率
用户满意度
成本指标

代码实现:

Python

from prometheus_client import Counter, Histogram, Gauge, start_http_server

# 定义指标
request_count = Counter('llm_requests_total', 'Total requests')  # Counter统计元素出现次数
request_latency = Histogram('llm_request_latency_seconds', 'Request latency')
gpu_utilization = Gauge('llm_gpu_utilization_percent', 'GPU utilization')

# 记录指标
@app.post("/generate")
async def generate(request: GenerationRequest):
    start_time = time.time()

    # 处理请求
    result = await generate_async(request)

    # 记录指标
    request_count.inc()
    request_latency.observe(time.time() - start_time)
    gpu_utilization.set(get_gpu_utilization())

    return result

# 启动Prometheus服务器
start_http_server(8001)

11.5 练习题¶

练习题1:模型量化¶

题目:使用Transformers对模型进行INT8量化。

参考答案:

Python

from transformers import AutoModelForCausalLM, BitsAndBytesConfig

# 量化配置
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True
)

# 加载量化模型
model = AutoModelForCausalLM.from_pretrained(
    "gpt2",
    quantization_config=bnb_config
)

练习题2:FastAPI部署¶

题目:使用FastAPI封装大模型,提供API服务。

参考答案:

Python

from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer

app = FastAPI()

# 加载模型
model = AutoModelForCausalLM.from_pretrained("gpt2")
tokenizer = AutoTokenizer.from_pretrained("gpt2")

@app.post("/generate")
async def generate(text: str):
    inputs = tokenizer(text, return_tensors="pt")
    outputs = model.generate(**inputs)
    return {"text": tokenizer.decode(outputs[0])}

11.6 面试准备¶

11.6.1 大厂面试题¶

字节跳动面试题:

问题:什么是模型量化?它有什么优势?

参考答案: - 量化是将模型参数从高精度转换为低精度 - 优势: - 减少显存占用 - 提高推理速度 - 降低部署成本 - 支持更大模型

问题:FP16、INT8、INT4有什么区别?

参考答案: - FP16:半精度浮点,显存减少50%,性能损失小 - INT8:8位整数,显存减少75%,性能损失中等 - INT4:4位整数,显存减少87.5%,性能损失较大

腾讯面试题:

问题:如何优化大模型部署的性能?

参考答案: - 模型量化:减少显存和计算 - 批处理:提高吞吐量 - 缓存:减少重复计算 - 异步处理:提高并发 - 模型并行:处理更大模型

问题:vLLM相比原生推理有什么优势?

参考答案: - 高性能:优化的推理引擎 - PagedAttention:高效的注意力计算 - 连续批处理:提高吞吐量 - 多种优化:量化、编译等

阿里巴巴面试题:

问题:如何降低大模型部署的成本?

参考答案: - 模型量化:减少资源需求 - 按需扩展:根据流量调整 - 竞价实例:使用低成本实例 - 多租户:共享资源 - 缓存优化:减少计算

问题:在实际项目中如何部署大模型?

参考答案: - 需求分析:确定性能和成本要求 - 模型准备:量化、优化模型 - 服务封装:封装为API服务 - 部署上线:部署到云平台 - 监控运维:监控性能和异常 - 持续优化:根据反馈优化

11.6.2 面试技巧¶

技巧1:理论联系实际

结合实际项目经验,说明如何部署大模型。

技巧2:性能优化

展示性能优化的实践经验。

技巧3:成本控制

说明如何控制部署成本。

技巧4:监控运维

说明监控和运维的经验。

📝 本章小结¶

本章系统介绍了大模型部署的核心内容:

✅ 部署概述:定义、部署方式、部署架构
✅ 模型量化:概述、实现、优化
✅ 部署框架:vLLM、TGI、FastAPI
✅ 部署优化:性能优化、成本优化、监控告警
✅ 练习题:模型量化、FastAPI部署
✅ 面试准备:大厂面试题和解答技巧

通过本章学习,你应该能够: - 理解大模型部署的核心概念 - 掌握模型量化和压缩技术 - 学会使用主流部署框架 - 了解部署优化策略 - 准备好应对大厂面试

🔗 下一步¶

下一章我们将深入学习推理优化,掌握如何优化大模型的推理性能。

继续学习: 12-推理优化.md

💡 思考题¶

什么是模型量化?它有什么优势?

将模型权重从FP32/FP16转为更低精度(INT8/INT4/NF4)，显著减少显存占用和推理延迟。优势：①显存降50-75% ②推理速度提升2-4x ③部署成本大幅降低。主流方法：GPTQ(训练后量化，精度高)、AWQ(激活感知，快速)、GGUF(CPU/Mac友好)。
FP16、INT8、INT4有什么区别?

FP16(16bit)：无精度损失，7B模型卖14GB显存。INT8(8bit)：精度损失极小(<1%)，7B卖7GB。INT4(4bit)：轻微精度损失(1-3%)，7B卖3.5GB。选择原则：显存充足用FP16；显存紧张用INT8；消费级产品用INT4+AWQ/GPTQ。NF4(QLoRA)是信息论最优4bit，但只用于微调场景。
如何优化大模型部署的性能?

①模型级：量化(INT8/INT4)+KV Cache优化 ②推理引擎：vLLM(PagedAttention)+连续批处理 ③系统级：Tensor并行(多GPU)、FlashAttention、流式输出 ④服务级：请求队列+缓存常见查询+负载均衡 ⑤硬件级：TensorRT编译优化。
如何降低大模型部署的成本?

①量化部署(更小GPU即可) ②用合适大小的模型(7B够用就不用70B) ③弹性伸缩(RunPod/Modal按需计费) ④分级服务(简单查询用小模型、复杂用大模型) ⑤缓存层(相似查询复用结果) ⑥Speculative Decoding(小模型草稿+大模型验证)。
在实际项目中如何部署大模型?

典型架构：vLLM/TGI推理引擎 + FastAPI/gRPC服务 + Nginx负载均衡 + Redis缓存 + Prometheus监控。部署流程：选模型→量化(AWQ)→性能测试(throughput/latency)→容器化(Docker)→K8s编排→监控告警。硬件参考：7B INT4→1×RTX 4090；70B INT4→2×A100。

📚 参考资料¶

vLLM Documentation
TGI Documentation
FastAPI Documentation
"GPTQ: Accurate Quantization for Generative Pre-trained Transformers" - Frantar et al.
"AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration" - Lin et al.

最后更新日期：2026-02-12 适用版本：LLM应用指南 v2026