从统计语言模型到自主 Agent,大语言模型经历了约十年的范式跃迁。本页面梳理这一进程的关键节点和技术脉络。
前 Transformer 时代
2017 年之前,语言建模主要依赖统计方法:
- n-gram 模型:基于词频共现预测下一个词,简单有效但无法捕捉长距离依赖
- Word2Vec(2013):Mikolov 提出的词向量方法,首次将词映射到连续向量空间,"king - man + woman ≈ queen"成为经典范例
- Seq2Seq(2014):Sutskever 等人提出的编码器-解码器架构,使用 LSTM 处理变长序列,在机器翻译任务上取得突破
- Attention 机制(2014-2015):Bahdanau 和 Luong 先后提出注意力机制,允许模型动态关注输入的不同部分
2026/5/29大约 4 分钟