标签: attention

Attention Mechanism

注意力机制（Attention Mechanism）是深度学习中用于建模序列元素间依赖关系的核心计算范式。它使模型能够动态地"关注"输入中最相关的部分，而非依赖固定长度的上下文窗口。注意力是 concepts/transformer-architecture 的计算核心。

演进历程

Bahdanau Attention（2014） 首次在机器翻译中引入可学习的对齐机制，让解码器在生成每个词时自适应地关注源序列的不同位置，解决了 RNN 固定长度上下文向量的信息瓶颈问题。

zhuonixian2026/5/29大约 2 分钟

Transformer Architecture

Transformer 是 2017 年由 Google 团队提出的深度学习架构，其核心创新是摒弃了传统的循环和卷积结构，完全基于 concepts/attention-mechanism 实现序列建模。这一架构从根本上改变了 NLP 和 CV 的技术格局，是当前所有主流 LLM 的基础。

核心组件

Self-Attention（自注意力） 是 Transformer 的计算核心。每个位置的 token 通过三组线性变换生成 Query、Key、Value 向量，通过计算注意力权重来捕获序列内任意两个位置之间的依赖关系。Multi-Head Attention 将注意力空间拆分为多个子空间，使模型能同时关注不同类型的语义关系。

zhuonixian2026/5/29大约 2 分钟