GPT

zhuonixian2026/5/29大约 2 分钟

GPT

OpenAI 的 Generative Pre-trained Transformer 系列，定义了大语言模型的技术范式。

简介

GPT（Generative Pre-trained Transformer）是 OpenAI 开发的大语言模型系列，基于 Transformer 架构的 Decoder 部分。从 2018 年的 GPT-1 到 2024 年的 GPT-4o，每一代都在规模和能力上实现了质的飞跃，深刻塑造了整个 AI 行业的技术路线。

模型演进

GPT-1（2018）

1.17 亿参数，首次验证了"生成式预训练 + 刡精调"的范式，在 12 项 NLP 任务中 9 项达到 SOTA。

GPT-2（2019）

15 亿参数，展示了零样本（zero-shot）学习的能力。因生成文本质量过高，初期只发布小模型版本，引发关于 AI 安全的广泛讨论。

GPT-3（2020）

1750 亿参数，few-shot learning 成为核心能力。API 开放后催生了大量应用生态，标志着 Foundation Model 时代的到来。

GPT-4（2023）

多模态模型（文本 + 图像输入），在专业考试、代码生成、推理任务上大幅超越前代。技术报告首次系统披露了 RLHF 对齐方法。

GPT-4o（2024）

"omni"模型，实现原生多模态能力（文本、音频、图像、视频），实时语音交互延迟降至毫秒级，标志着人机交互范式的转变。

ChatGPT

ChatGPT 于 2022 年 11 月基于 GPT-3.5 发布，是有史以来增长最快的消费级应用。后续迭代包括：

GPTs / GPT Store：用户自定义 AI Agent 的市场
Custom Instructions：个性化指令持久化
Memory：跨对话记忆能力

技术特点

基于 Transformer Decoder 的自回归生成
规模法则（Scaling Law）驱动的性能提升
RLHF（人类反馈强化学习）实现行为对齐
上下文学习（In-context Learning）能力

相关页面