标签: representation-learning

深度学习（Deep Learning）是机器学习的子领域，通过多层神经网络自动学习数据的层次化表示。其核心思想是让模型自动从原始数据中提取由低级到高级的特征，减少人工特征工程的依赖。

神经网络基础

深度学习的计算单元是人工神经元（感知机），通过激活函数引入非线性。常用的激活函数包括 ReLU、Sigmoid 和 GELU。反向传播（Backpropagation）算法配合梯度下降是训练神经网络的核心机制，链式法则使得损失函数对各层参数的梯度计算成为可能。

主要网络架构

CNN（卷积神经网络）：利用卷积核提取局部空间特征，在图像处理领域取得了突破性成果。代表模型包括 AlexNet、VGG、ResNet。
RNN / LSTM：处理序列数据的递归结构，LSTM 通过门控机制缓解了梯度消失问题，广泛用于时序预测和早期 NLP 任务。
Transformer：基于自注意力机制的架构，彻底改变了 NLP 和 CV 领域，是 GPT、BERT、ViT 等模型的基础。

zhuonixian2026/5/29大约 2 分钟

Embedding

嵌入（Embedding）是将离散的符号（词、句子、实体）映射到连续的低维向量空间的技术。好的嵌入能够捕获语义关系——语义相近的元素在向量空间中距离相近。嵌入是连接自然语言与数值计算的桥梁，是 concepts/attention-mechanism 和 concepts/vector-database 的基础。

zhuonixian2026/5/29大约 2 分钟