LLM 训练流程

zhuonixian2026/5/29大约 2 分钟

LLM 训练流程

LLM（Large Language Model）的训练流程是一个多阶段的系统工程，从原始数据到最终可用的模型，通常需要经历预训练、微调和对齐等关键阶段。理解这一流程对于把握 LLM 的能力边界和局限性至关重要。

预训练（Pre-training）

预训练是 LLM 训练的第一阶段，也是最耗费计算资源的阶段。模型在大规模语料（通常为 TB 级别的文本数据，涵盖网页、书籍、代码等）上进行自监督学习，核心目标是 next-token prediction——给定前文，预测下一个 token 的概率分布。这一过程使模型习得语言的统计规律、世界知识以及推理能力的雏形。代表性的预训练框架包括 Decoder-only Transformer（如 GPT 系列）和 Encoder-Decoder 架构（如 T5）。

监督微调（Supervised Fine-Tuning, SFT）

预训练后的模型虽然具备丰富的语言知识，但并不天然善于遵循指令。SFT 阶段通过高质量的指令-回复对数据，教会模型以对话的方式响应用户请求。数据质量远比数量重要——数千条精心标注的样本往往比百万条低质量数据更有效。这一阶段也被称为"指令微调"（Instruction Tuning）。

人类反馈强化学习（RLHF）

RLHF 是当前主流的对齐方法。其流程分为两步：首先训练一个奖励模型（Reward Model），该模型学习人类对回复质量的偏好判断；然后使用 PPO（Proximal Policy Optimization）等强化学习算法，根据奖励模型的反馈优化语言模型的输出策略。RLHF 显著提升了模型的有用性（helpfulness）和无害性（harmlessness）。entities/anthropic 在这一领域做出了开创性贡献。

直接偏好优化（DPO）

DPO（Direct Preference Optimization）是 RLHF 的简化替代方案。它跳过奖励模型的训练步骤，直接利用人类偏好数据（preferred vs. dispreferred 回复对）通过简单的分类损失函数来优化策略模型。DPO 在工程实现上更简洁，训练稳定性更好，近年来被广泛采用。

后训练（Post-training）

Post-training 是模型发布前的最后阶段，涵盖多个维度的优化：安全对齐（确保模型拒绝有害请求）、能力增强（如代码生成、数学推理的专项提升）、红队测试（Red Teaming）以及安全 guardrails 的部署。这一阶段决定了模型的最终用户体验和安全水平。

LLM 训练流程

LLM 训练流程

预训练（Pre-training）

监督微调（Supervised Fine-Tuning, SFT）

人类反馈强化学习（RLHF）

直接偏好优化（DPO）

后训练（Post-training）

相关概念