标签: history | zhuonixian

大语言模型的进化史

从统计语言模型到自主 Agent，大语言模型经历了约十年的范式跃迁。本页面梳理这一进程的关键节点和技术脉络。

前 Transformer 时代

2017 年之前，语言建模主要依赖统计方法：

n-gram 模型：基于词频共现预测下一个词，简单有效但无法捕捉长距离依赖
Word2Vec（2013）：Mikolov 提出的词向量方法，首次将词映射到连续向量空间，"king - man + woman ≈ queen"成为经典范例
Seq2Seq（2014）：Sutskever 等人提出的编码器-解码器架构，使用 LSTM 处理变长序列，在机器翻译任务上取得突破
Attention 机制（2014-2015）：Bahdanau 和 Luong 先后提出注意力机制，允许模型动态关注输入的不同部分

zhuonixian2026/5/29大约 4 分钟