深度学习

zhuonixian2026/5/29大约 2 分钟

深度学习

深度学习（Deep Learning）是机器学习的子领域，通过多层神经网络自动学习数据的层次化表示。其核心思想是让模型自动从原始数据中提取由低级到高级的特征，减少人工特征工程的依赖。

神经网络基础

深度学习的计算单元是人工神经元（感知机），通过激活函数引入非线性。常用的激活函数包括 ReLU、Sigmoid 和 GELU。反向传播（Backpropagation）算法配合梯度下降是训练神经网络的核心机制，链式法则使得损失函数对各层参数的梯度计算成为可能。

主要网络架构

CNN（卷积神经网络）：利用卷积核提取局部空间特征，在图像处理领域取得了突破性成果。代表模型包括 AlexNet、VGG、ResNet。
RNN / LSTM：处理序列数据的递归结构，LSTM 通过门控机制缓解了梯度消失问题，广泛用于时序预测和早期 NLP 任务。
Transformer：基于自注意力机制的架构，彻底改变了 NLP 和 CV 领域，是 GPT、BERT、ViT 等模型的基础。

GPU 训练与并行计算

深度学习的发展与 GPU 算力密不可分。CUDA 和 PyTorch/TensorFlow 等框架使得 GPU 加速训练成为标配。数据并行、模型并行和流水线并行是处理大规模模型的三种主要并行策略。混合精度训练在保持精度的同时显著提升了训练速度。

深度学习的局限性

尽管深度学习取得了巨大成功，但仍面临诸多挑战：对大量标注数据的依赖、模型可解释性差、对抗样本脆弱性、训练成本高昂以及灾难性遗忘等问题。这些局限推动了 Few-shot Learning、可解释 AI 和持续学习等研究方向的发展。

深度学习源于机器学习，但已在众多领域形成了独立的方法论和工具链。

相关页面