如何微调大语言模型

zhuonixian2026/5/29大约 3 分钟

本指南覆盖微调的完整流程，从数据准备到模型部署。微调是将通用 LLM 适配到特定领域或任务的关键技术。

数据准备

数据质量决定微调效果的上限。核心要求：

工具推荐：datasets（Hugging Face）用于加载和处理数据，cleanlab 用于数据质量诊断。

选型时考虑以下维度：

主流选择：Llama 3（Meta）、Qwen 2.5（阿里）、Mistral（Mistral AI）、DeepSeek（深度求索）。

LoRA（Low-Rank Adaptation）是最常用的参数高效微调方法：

安装依赖：pip install transformers peft trl datasets
加载数据和模型：使用 AutoModelForCausalLM 加载基座模型，PeftModel 配置 LoRA 适配器
配置 LoRA 参数：r（秩）通常设为 8-64，lora_alpha 设为 r 的 1-2 倍，target_modules 指定要训练的层（通常为 q_proj、v_proj）
设置训练超参：学习率 1e-4 到 5e-5，batch size 根据显存调整，训练 3-5 个 epoch
启动训练：使用 SFTTrainer（TRL 库）进行监督微调
合并保存：训练完成后将 LoRA 权重合并回基座模型，便于部署

推荐工具：Axolotl（配置驱动的一站式微调框架）、Unsloth（加速训练的优化库）。

关键超参及调整方向：

监控指标：训练 loss 应平稳下降。如果 loss 不降或震荡，检查数据质量和学习率。