标签: deep-learning

计算机视觉（Computer Vision, CV）是 AI 领域的重要分支，致力于让计算机从图像和视频中提取、分析和理解视觉信息。CV 技术是自动驾驶、医学影像、安防监控和增强现实等应用的核心驱动力。

核心任务

图像分类：识别图像中的主要对象类别
目标检测：定位并识别图像中的多个物体及其位置（边界框）
语义分割 / 实例分割：像素级别的场景理解
图像生成：从文本或噪声生成逼真图像

zhuonixian2026/5/29大约 2 分钟

深度学习（Deep Learning）是机器学习的子领域，通过多层神经网络自动学习数据的层次化表示。其核心思想是让模型自动从原始数据中提取由低级到高级的特征，减少人工特征工程的依赖。

神经网络基础

深度学习的计算单元是人工神经元（感知机），通过激活函数引入非线性。常用的激活函数包括 ReLU、Sigmoid 和 GELU。反向传播（Backpropagation）算法配合梯度下降是训练神经网络的核心机制，链式法则使得损失函数对各层参数的梯度计算成为可能。

主要网络架构

CNN（卷积神经网络）：利用卷积核提取局部空间特征，在图像处理领域取得了突破性成果。代表模型包括 AlexNet、VGG、ResNet。
RNN / LSTM：处理序列数据的递归结构，LSTM 通过门控机制缓解了梯度消失问题，广泛用于时序预测和早期 NLP 任务。
Transformer：基于自注意力机制的架构，彻底改变了 NLP 和 CV 领域，是 GPT、BERT、ViT 等模型的基础。

zhuonixian2026/5/29大约 2 分钟

Attention Mechanism

注意力机制（Attention Mechanism）是深度学习中用于建模序列元素间依赖关系的核心计算范式。它使模型能够动态地"关注"输入中最相关的部分，而非依赖固定长度的上下文窗口。注意力是 concepts/transformer-architecture 的计算核心。

演进历程

Bahdanau Attention（2014） 首次在机器翻译中引入可学习的对齐机制，让解码器在生成每个词时自适应地关注源序列的不同位置，解决了 RNN 固定长度上下文向量的信息瓶颈问题。

zhuonixian2026/5/29大约 2 分钟

LLM 训练流程

LLM（Large Language Model）的训练流程是一个多阶段的系统工程，从原始数据到最终可用的模型，通常需要经历预训练、微调和对齐等关键阶段。理解这一流程对于把握 LLM 的能力边界和局限性至关重要。

预训练（Pre-training）

预训练是 LLM 训练的第一阶段，也是最耗费计算资源的阶段。模型在大规模语料（通常为 TB 级别的文本数据，涵盖网页、书籍、代码等）上进行自监督学习，核心目标是 next-token prediction——给定前文，预测下一个 token 的概率分布。这一过程使模型习得语言的统计规律、世界知识以及推理能力的雏形。代表性的预训练框架包括 Decoder-only Transformer（如 GPT 系列）和 Encoder-Decoder 架构（如 T5）。

zhuonixian2026/5/29大约 2 分钟

Transformer Architecture

Transformer 是 2017 年由 Google 团队提出的深度学习架构，其核心创新是摒弃了传统的循环和卷积结构，完全基于 concepts/attention-mechanism 实现序列建模。这一架构从根本上改变了 NLP 和 CV 的技术格局，是当前所有主流 LLM 的基础。

核心组件

Self-Attention（自注意力） 是 Transformer 的计算核心。每个位置的 token 通过三组线性变换生成 Query、Key、Value 向量，通过计算注意力权重来捕获序列内任意两个位置之间的依赖关系。Multi-Head Attention 将注意力空间拆分为多个子空间，使模型能同时关注不同类型的语义关系。

zhuonixian2026/5/29大约 2 分钟