分词(Tokenization)是将原始文本拆分为模型可处理的基本单元(token)的过程。它是 concepts/llm-training-pipeline 的第一步,直接影响模型的词汇量、处理效率和生成质量。分词粒度的选择是效率与表达能力之间的关键权衡。
BPE(Byte Pair Encoding)
BPE 是当前 LLM 最广泛使用的分词算法。其核心思路是迭代合并频率最高的字符对:从字符级别出发,统计相邻字符对的频率,将最高频的对合并为新符号,重复直至达到目标词汇量。BPE 自动学习子词单元,在常见词保持完整(如"learning")的同时,将罕见词拆分为有意义的子词片段(如"un" + "familiar"),有效平衡了词汇量与覆盖度。
2026/5/29大约 2 分钟