深度学习(Deep Learning)是机器学习的子领域,通过多层神经网络自动学习数据的层次化表示。其核心思想是让模型自动从原始数据中提取由低级到高级的特征,减少人工特征工程的依赖。
神经网络基础
深度学习的计算单元是人工神经元(感知机),通过激活函数引入非线性。常用的激活函数包括 ReLU、Sigmoid 和 GELU。反向传播(Backpropagation)算法配合梯度下降是训练神经网络的核心机制,链式法则使得损失函数对各层参数的梯度计算成为可能。
主要网络架构
- CNN(卷积神经网络):利用卷积核提取局部空间特征,在图像处理领域取得了突破性成果。代表模型包括 AlexNet、VGG、ResNet。
- RNN / LSTM:处理序列数据的递归结构,LSTM 通过门控机制缓解了梯度消失问题,广泛用于时序预测和早期 NLP 任务。
- Transformer:基于自注意力机制的架构,彻底改变了 NLP 和 CV 领域,是 GPT、BERT、ViT 等模型的基础。
2026/5/29大约 2 分钟