LLM(Large Language Model)的训练流程是一个多阶段的系统工程,从原始数据到最终可用的模型,通常需要经历预训练、微调和对齐等关键阶段。理解这一流程对于把握 LLM 的能力边界和局限性至关重要。
预训练(Pre-training)
预训练是 LLM 训练的第一阶段,也是最耗费计算资源的阶段。模型在大规模语料(通常为 TB 级别的文本数据,涵盖网页、书籍、代码等)上进行自监督学习,核心目标是 next-token prediction——给定前文,预测下一个 token 的概率分布。这一过程使模型习得语言的统计规律、世界知识以及推理能力的雏形。代表性的预训练框架包括 Decoder-only Transformer(如 GPT 系列)和 Encoder-Decoder 架构(如 T5)。
2026/5/29大约 2 分钟