注意力机制(Attention Mechanism)是深度学习中用于建模序列元素间依赖关系的核心计算范式。它使模型能够动态地"关注"输入中最相关的部分,而非依赖固定长度的上下文窗口。注意力是 concepts/transformer-architecture 的计算核心。
演进历程
Bahdanau Attention(2014) 首次在机器翻译中引入可学习的对齐机制,让解码器在生成每个词时自适应地关注源序列的不同位置,解决了 RNN 固定长度上下文向量的信息瓶颈问题。
2026/5/29大约 2 分钟