大语言模型的进化史

zhuonixian2026/5/29大约 4 分钟

从统计语言模型到自主 Agent，大语言模型经历了约十年的范式跃迁。本页面梳理这一进程的关键节点和技术脉络。

前 Transformer 时代

2017 年之前，语言建模主要依赖统计方法：

n-gram 模型：基于词频共现预测下一个词，简单有效但无法捕捉长距离依赖
Word2Vec（2013）：Mikolov 提出的词向量方法，首次将词映射到连续向量空间，"king - man + woman ≈ queen"成为经典范例
Seq2Seq（2014）：Sutskever 等人提出的编码器-解码器架构，使用 LSTM 处理变长序列，在机器翻译任务上取得突破
Attention 机制（2014-2015）：Bahdanau 和 Luong 先后提出注意力机制，允许模型动态关注输入的不同部分

这些工作为 Transformer 的诞生奠定了思想和工程基础。

Vaswani 等人在论文 "Attention Is All You Need" 中提出了 Transformer 架构，核心创新：

Transformer 的影响远超 NLP 领域——它成为计算机视觉（ViT）、语音、蛋白质结构预测等领域的通用架构。

Transformer 之后，预训练成为主流范式：

GPT-1（2018）：OpenAI 首次验证了"预训练 + 微调"的可行性，使用 Transformer Decoder
BERT（2018）：Google 提出双向预训练，在 11 项 NLP 基准上刷新纪录，预训练-微调范式被广泛接受
GPT-2（2019）：参数量从 1.17 亿增至 15 亿，展现出零样本（zero-shot）学习能力。OpenAI 因此推迟开源，引发"AI 安全"讨论
GPT-3（2020）：1750 亿参数，少样本（few-shot）能力令人瞩目。规模效应首次被清晰地量化——"大力出奇迹"成为共识