跳转至

深度学习简介

约 747 个字 预计阅读时间 4 分钟

  • 特征不能学习/训练的
  • 分类器通常是可训练的,如 SVM, HMM...

特征非常重要,很多特征都是为了特定的任务而手工设计,但手工设计一个特征提取需要相当大的努力。

  • 为了特定的识别任务,找到更适合的特征,以可训练的方式提取特征
  • 学习统计结构或者数据与数据之间的相互关系得到特征表达
  • 学习得到的特征表达可以用来作为识别任务中的特征

核心思想:

  • 从数据中学习数据的统计结构或相关性。
  • 学习到的表征可以用作识别任务中的特征。
  • 被称为:特征学习、深度学习、表示学习等。
  • 自2006年以来,学习特征表示的深度学习越来越流行。

CNN 卷积神经网络

  • CNN 是少有的可以监督训练的深度模型,而且容易理解、实现。

神经

人工神经网络,对突触的观测值连到汇总的地方,并进行加权求和,通过激活函数产生输出

\(w_0\) 用于矫正数据的偏置量 Bias

常用的激活函数

ReLU 会把输入的信号去掉一部分

多层神经网络

如何解深度神经网络(求出 \(w\))

反向传播 Back-propagation(BP)

  • 随机初始化权重,计算 \(h_W(X)\)
  • 计算误差 \(E=(h_W(X)-y)^2\)
  • \(W_k=W_{k-1}-\epsilon \frac{\partial E}{\partial W}\) 特别地, \(w_{ij}^{(k)}=w_{ij}^{(k-1)}-\epsilon \frac{\partial E}{\partial w_{ij}^{(k-1)}}\) 梯度下降法

\(\epsilon\) 是个超参,称为学习率。如果设置过大可能会在收敛的两边剧烈震荡;如果过小容易陷入局部最优爬不出来,以及收敛更慢。

共享权重

设计一个卷积核用来提取特征,得到一个新的图像 feature map 特征图。

10 个卷积核得到 10 张特征图,形成一个三维的特征体。

卷积核可以复用

简单的细胞检测局部特征;复杂的细胞会池化,筛选提取特征(特征图的降采样)

池化 - 降采样

空间,选择重要的值,降低复杂度

是通过梯度下降的方法来优化,如何设置学习率?

学习率低,收敛慢,容易掉到坑里陷入局部最优;学习率高,可能使得收敛过程不稳定,来回震荡,一直不收敛

idea:

  • 设置不同的学习率,看哪种情况最好
  • 设计一个自适应学习率。此时学习率不再固定,可以通过外在条件算(梯度,学习要有多快,特征权重的大小...)

第三步的梯度,可以很容易的算出

如果我们随机选一个点,很容易被噪点影响。所以我们用一个 batch B



正则化:dropout 丢掉一半,防止过拟合

早停法,见好就收