标签: training

LLM（Large Language Model）的训练流程是一个多阶段的系统工程，从原始数据到最终可用的模型，通常需要经历预训练、微调和对齐等关键阶段。理解这一流程对于把握 LLM 的能力边界和局限性至关重要。

预训练（Pre-training）

预训练是 LLM 训练的第一阶段，也是最耗费计算资源的阶段。模型在大规模语料（通常为 TB 级别的文本数据，涵盖网页、书籍、代码等）上进行自监督学习，核心目标是 next-token prediction——给定前文，预测下一个 token 的概率分布。这一过程使模型习得语言的统计规律、世界知识以及推理能力的雏形。代表性的预训练框架包括 Decoder-only Transformer（如 GPT 系列）和 Encoder-Decoder 架构（如 T5）。

zhuonixian2026/5/29大约 2 分钟