标签: bpe

Tokenization

分词（Tokenization）是将原始文本拆分为模型可处理的基本单元（token）的过程。它是 concepts/llm-training-pipeline 的第一步，直接影响模型的词汇量、处理效率和生成质量。分词粒度的选择是效率与表达能力之间的关键权衡。

BPE（Byte Pair Encoding）

BPE 是当前 LLM 最广泛使用的分词算法。其核心思路是迭代合并频率最高的字符对：从字符级别出发，统计相邻字符对的频率，将最高频的对合并为新符号，重复直至达到目标词汇量。BPE 自动学习子词单元，在常见词保持完整（如"learning"）的同时，将罕见词拆分为有意义的子词片段（如"un" + "familiar"），有效平衡了词汇量与覆盖度。

zhuonixian2026/5/29大约 2 分钟