WSL2下部署Qwen3模型：配置、优化与资源管理

1. 前言

最近一直在《黑神话》里挑战复战无伤，可惜越刷越怀疑手速。这时候就想起了当初买显卡的初衷是跑模型，不然谁特意选4060 16G版本呢？
正好最近Qwen推出了3.5版本，当时小模型还没发布，就先试试Qwen 3，等小模型出来再替换。这篇文章就记录一下在WSL2环境下部署Qwen3-8B模型时遇到的坑，供大家参考避坑。

项目代码已上传至Github，地址qwen3-local-chat。

摘要：本文详细记录了在 WSL2 环境下部署 Qwen3-8B 大语言模型的全过程，重点介绍了系统资源限制、4-bit 量化配置、SDPA 注意力机制优化以及 CUDA 内存碎片管理等关键技术方案，确保模型在 RTX 4060 16GB 显卡上稳定运行的同时保持主机系统响应性。

2. 主机配置

在WSL2上部署Qwen3模型，首先需要安装WSL2本身，接着配置CUDA环境，并准备好Python环境及清华镜像。这部分网上的教程已经非常详细，这里就不再赘述。
另外，刚开始部署时，我没有对模型和WSL2做资源占用限制，结果在进行AI问答时，电脑卡到问答页面都刷新不出来，没法刷视频。于是，后续对模型和WSL2的资源占用做了一些必要的限制。

2.1 硬件配置

组件	规格
CPU	AMD Ryzen 9 7900X (12核24线程，基础频率4.7GHz，加速频率5.4GHz)
内存	32GB DDR5 6000MHz (双通道16GB×2)
显卡	NVIDIA GeForce RTX 4060 16GB GDDR6
存储	NVMe SSD 1TB (PCIe 4.0)

2.2 软件环境

组件	版本
操作系统	Windows 11 专业版 23H2
WSL2	Ubuntu 22.04.4 LTS (内核版本5.15.146.1-microsoft-standard-WSL2)
CUDA	CUDA 12.1 (PyTorch内置)
Python	Python 3.10.12
模型	Qwen/Qwen3-8B (参数量约8.03B)

2.3 WSL2资源限制配置

在Windows用户目录下创建.wslconfig文件限制WSL2的CPU核心数：

[wsl2]
# 限制WSL2使用8个CPU核心，避免AI推理时系统卡顿
processors=8
# 分配16GB内存给WSL2
memory=16GB
# 交换空间4GB
swap=4GB

配置后需要重启WSL2生效：wsl --shutdown。

后续发现，Windows 11有WSL设置菜单，更推荐使用菜单进行配置，直观且不会出错。

3. WSL2环境准备

3.1 依赖管理

核心依赖及版本号（基于实际安装环境）：

依赖包	版本	用途
torch	2.10.0+cu128	深度学习框架，提供CUDA支持
transformers	4.43.3	HuggingFace模型加载与推理
accelerate	0.30.1	模型分布式加载与加速
bitsandbytes	0.42.0	4-bit量化支持
chainlit	2.9.6	Web交互界面
psutil	5.10.0	系统资源监控
sentencepiece	0.1.99	分词器支持
protobuf	3.20.3	数据序列化

安装依赖时肯定要使用清华镜像加速：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

4. 模型部署与优化

4.1 SDPA注意力机制优化

SDPA（Scaled Dot Product Attention）是PyTorch 2.0内置的高效注意力实现，相比传统注意力机制有这些优势：（1）自动选择最优注意力实现，（2）减少显存占用，（3）提升推理速度，（4）无需额外依赖。

4.1.1 为什么选择SDPA以及如何配置

在项目初期，我尝试安装Flash Attention 2来更好的压榨性能，但是安装一直失败，在网上查找原因，大概总结原因是版本冲突：

系统CUDA版本: 13.1（通过nvcc --version查看）；
PyTorch CUDA版本: 2.10.0+cu128内置CUDA 12.8（通过torch.version.cuda查看）；
Flash Attention 2要求: 需要编译安装，要求nvcc版本与PyTorch CUDA版本一致；官方预编译wheel包也只提供了主流CUDA版本（如11.8、12.1、12.4）的支持，当前版本估计是较新，还没有来得及支持。

那这肯定是要采用SDPA了，虽然Flash Attention 2在理论上性能更好，但是我不想自己编译，再说了对于RTX 4060来说，SDPA的性能已经足够了。在模型加载时通过参数指定：

model_kwargs = {
    "trust_remote_code": True,
    "quantization_config": quant_config,
    "device_map": "auto",
    "attn_implementation": "sdpa",
}

4.2 4-bit量化配置

使用BitsAndBytes进行4-bit量化，大幅降低显存占用：

quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",           # NormalFloat4量化
    bnb_4bit_use_double_quant=True,      # 双重量化，进一步节省显存
    bnb_4bit_compute_dtype=torch.float16,
)

NF4（NormalFloat4）量化是一种针对正态分布权重优化的量化方法，相比传统的int4量化能更好地保留模型精度。双重量化则对量化参数本身进行二次量化，进一步节省显存。

4.3 CUDA内存碎片优化

在模型加载前设置以下环境变量，可以启用PyTorch的expandable_segments特性，改善CUDA内存碎片化问题：

os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"

该配置让CUDA内存分配器能够动态扩展内存段，有效减少因内存碎片导致的显存溢出（OOM）错误。实测表明，未设置此项时模型因显存不足无法加载，开启后则可顺利加载运行。

4.4 GPU显存预留与CPU资源限制

为防止GPU和CPU被完全占用导致主机卡顿，同时设置显存预留比例和CPU资源限制：

# 资源限制配置
GPU_MAX_UTILIZATION = 0.95  # 最多使用95%显存
CPU_MAX_UTILIZATION = 0.8   # 最多使用80%的CPU核心

# GPU显存限制
if torch.cuda.is_available():
    torch.cuda.set_per_process_memory_fraction(GPU_MAX_UTILIZATION)

# CPU资源限制
cpu_count = os.cpu_count() or 1
max_threads = max(1, int(cpu_count * CPU_MAX_UTILIZATION))
torch.set_num_threads(max_threads)

对于AMD 7900X（12核24线程），WSL2限制为8核后，实际使用约6-7个线程，保留部分CPU资源给系统。

4.5 CPU资源优化配置

4.5.1 CPU Offload设置

在4-bit量化配置中启用CPU Offload功能，将部分模型层卸载到CPU内存：

quant_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.float16,
    llm_int8_enable_fp32_cpu_offload=True,  # 启用CPU Offload
)

显存优化：将部分模型权重以FP32精度存储在CPU内存中，仅在需要时传输到GPU，进一步降低GPU显存占用
动态卸载：配合device_map="auto"，accelerate库会自动将部分层分配到CPU，实现GPU/CPU混合推理
内存换显存：利用系统内存（32GB）作为GPU显存（16GB）的补充，支持更大模型或更长上下文

对于RTX 4060 16GB显卡，CPU Offload可以在显存紧张时提供额外缓冲空间，确保模型稳定运行。

4.5.2 CPU亲和性设置

通过psutil设置CPU亲和性，将模型推理绑定到特定核心：

import psutil
p = psutil.Process()
cpus_to_use = available_cpus[:max_threads]
p.cpu_affinity(cpus_to_use)

这样可以减少CPU上下文切换，提高推理效率。此外结合WSL2的8核限制，确保AI推理不会占用过多CPU资源。

5. 资源限制总结

为确保主机在AI问答时能正常刷新页面，项目实施了以下资源限制：

资源类型	限制策略	预留比例	配置方式
GPU显存	set_per_process_memory_fraction(0.95)	5%	PyTorch API
CPU核心	set_num_threads(cpu_count * 0.8)	20%	PyTorch API
CPU亲和性	绑定到前N个核心	保留系统核心	psutil
CPU Offload	llm_int8_enable_fp32_cpu_offload=True	动态卸载	BitsAndBytesConfig
WSL2 CPU	.wslconfig限制8核	物理核心的33%	WSL2配置

6. 实际效果

在上述配置下，Qwen3-8B模型在RTX 4060 16GB上的表现：

指标	数值
推理速度	15-25 tokens/s（取决于输入长度）
思考阶段速度	10-18 tokens/s
回答阶段速度	18-28 tokens/s
主机响应	AI推理时页面刷新无明显卡顿

不过老实说，看到这个回答我是相当难崩，玩玩就行了：

Menu

Share

WSL2下部署Qwen3模型：配置、优化与资源管理

1. 前言

2. 主机配置

2.1 硬件配置

2.2 软件环境

2.3 WSL2资源限制配置

3. WSL2环境准备

3.1 依赖管理

4. 模型部署与优化

4.1 SDPA注意力机制优化

4.1.1 为什么选择SDPA以及如何配置

4.2 4-bit量化配置

4.3 CUDA内存碎片优化

4.4 GPU显存预留与CPU资源限制

4.5 CPU资源优化配置

4.5.1 CPU Offload设置

4.5.2 CPU亲和性设置

5. 资源限制总结

6. 实际效果

Comment

Win11主机启动WSL报错：CreateInstance/CreateVm/ConfigureNetworking

基于飞书网页登录流程解释OAuth 2及JustAuth集成实践

用三层规则体系驯服 AI：Cursor .mdc 与 VS Code Copilot 实战笔记

Edge浏览器同步设置

Taro跨端应用中的SSE流式请求实现：兼容微信小程序与H5的统一方案

解决HP+Win11笔记本电脑上Idea编辑器无法使用shift+F6快捷键

WSL2下部署Qwen3模型：配置、优化与资源管理

Spring Cloud Gateway 5.0性能基准测试：WebFlux vs WebMVC（含虚拟线程对比）

移动云重新挂载云硬盘

rCore学习——建立跳板页面