计算机视觉(Computer Vision, CV)是 AI 领域的重要分支,致力于让计算机从图像和视频中提取、分析和理解视觉信息。CV 技术是自动驾驶、医学影像、安防监控和增强现实等应用的核心驱动力。
核心任务
- 图像分类:识别图像中的主要对象类别
- 目标检测:定位并识别图像中的多个物体及其位置(边界框)
- 语义分割 / 实例分割:像素级别的场景理解
- 图像生成:从文本或噪声生成逼真图像
计算机视觉(Computer Vision, CV)是 AI 领域的重要分支,致力于让计算机从图像和视频中提取、分析和理解视觉信息。CV 技术是自动驾驶、医学影像、安防监控和增强现实等应用的核心驱动力。
深度学习(Deep Learning)是机器学习的子领域,通过多层神经网络自动学习数据的层次化表示。其核心思想是让模型自动从原始数据中提取由低级到高级的特征,减少人工特征工程的依赖。
深度学习的计算单元是人工神经元(感知机),通过激活函数引入非线性。常用的激活函数包括 ReLU、Sigmoid 和 GELU。反向传播(Backpropagation)算法配合梯度下降是训练神经网络的核心机制,链式法则使得损失函数对各层参数的梯度计算成为可能。
注意力机制(Attention Mechanism)是深度学习中用于建模序列元素间依赖关系的核心计算范式。它使模型能够动态地"关注"输入中最相关的部分,而非依赖固定长度的上下文窗口。注意力是 concepts/transformer-architecture 的计算核心。
Bahdanau Attention(2014) 首次在机器翻译中引入可学习的对齐机制,让解码器在生成每个词时自适应地关注源序列的不同位置,解决了 RNN 固定长度上下文向量的信息瓶颈问题。
LLM(Large Language Model)的训练流程是一个多阶段的系统工程,从原始数据到最终可用的模型,通常需要经历预训练、微调和对齐等关键阶段。理解这一流程对于把握 LLM 的能力边界和局限性至关重要。
预训练是 LLM 训练的第一阶段,也是最耗费计算资源的阶段。模型在大规模语料(通常为 TB 级别的文本数据,涵盖网页、书籍、代码等)上进行自监督学习,核心目标是 next-token prediction——给定前文,预测下一个 token 的概率分布。这一过程使模型习得语言的统计规律、世界知识以及推理能力的雏形。代表性的预训练框架包括 Decoder-only Transformer(如 GPT 系列)和 Encoder-Decoder 架构(如 T5)。
Transformer 是 2017 年由 Google 团队提出的深度学习架构,其核心创新是摒弃了传统的循环和卷积结构,完全基于 concepts/attention-mechanism 实现序列建模。这一架构从根本上改变了 NLP 和 CV 的技术格局,是当前所有主流 LLM 的基础。
Self-Attention(自注意力) 是 Transformer 的计算核心。每个位置的 token 通过三组线性变换生成 Query、Key、Value 向量,通过计算注意力权重来捕获序列内任意两个位置之间的依赖关系。Multi-Head Attention 将注意力空间拆分为多个子空间,使模型能同时关注不同类型的语义关系。