首页手记 [机器学习]神经网络反向传播的推导

[机器学习]神经网络反向传播的推导

标签：

人工智能

神经网络反向传播的推导

对于神经网络的训练过程而言，其反向传播算法是训练过程的核心，神经网络根据预测值y^ $\hat{y}$ 与实际值y $y$ 的偏差从后向前来计算损失函数对于各个参数的梯度，从而利用梯度下降的方法来优化训练神经网络的各个参数。

神经网络的计算流程图如下：

从该流程图可以看到，如果我们要计算神经网络的参数W[1],b[1],W[2],b[2] $W^{[1]}, b^{[1]}, W^{[2]}, b^{[2]}$ ，首先需要计算∂L∂a[2] $\frac{\partial L}{\partial a^{[2]}}$ 和∂a[2]∂z[2] $\frac{\partial a^{[2]}}{\partial z^{[2]}}$ ，然后根据链式法则得到∂L∂z[2]=∂L∂a[2]∂a[2]∂z[2] $\frac{\partial L}{\partial z^{[2]}} = \frac{\partial L}{\partial a^{[2]}} \frac{\partial a^{[2]}}{\partial z^{[2]}}$ 。

之后再计算∂z[2]∂W[2] $\frac{\partial z^{[2]}}{\partial W^{[2]}}$ 和∂z[2]∂b[2] $\frac{\partial z^{[2]}}{\partial b^{[2]}}$ ，同样根据链式法则可以得到∂L∂W[2]=∂L∂z[2]∂z[2]∂W[2] $\frac{\partial L}{\partial W^{[2]}} = \frac{\partial L}{\partial z^{[2]}} \frac{\partial z^{[2]}}{\partial W^{[2]}}$ 以及得到∂L∂b[2]=∂L∂z[2]∂z[2]∂b[2] $\frac{\partial L}{\partial b^{[2]}} = \frac{\partial L}{\partial z^{[2]}} \frac{\partial z^{[2]}}{\partial b^{[2]}}$ 。这样便得到了dW[2] $d W^{[2]}$ 和db[2] $d b^{[2]}$ 。

另外对于dW[1] $d W^{[1]}$ 和db[1] $d b^{[1]}$ 的计算，需要先计算∂z[1]∂W[1] $\frac{\partial z^{[1]}}{\partial W^{[1]}}$ ，∂a[1]∂z[1] $\frac{\partial a^{[1]}}{\partial z^{[1]}}$ 和∂z[2]∂a[1] $\frac{\partial z^{[2]}}{\partial a^{[1]}}$ ，同样根据链式法则可以得到∂L∂W[1]=∂L∂z[2]∂z[2]∂a[1]∂a[1]∂z[1]∂z[1]∂W[1] $\frac{\partial L}{\partial W^{[1]}} = \frac{\partial L}{\partial z^{[2]}} \frac{\partial z^{[2]}}{\partial a^{[1]}} \frac{\partial a^{[1]}}{\partial z^{[1]}} \frac{\partial z^{[1]}}{\partial W^{[1]}}$ ，以及∂L∂b[1]=∂L∂z[2]∂z[2]∂a[1]∂a[1]∂z[1]∂z[1]∂b[1] $\frac{\partial L}{\partial b^{[1]}} = \frac{\partial L}{\partial z^{[2]}} \frac{\partial z^{[2]}}{\partial a^{[1]}} \frac{\partial a^{[1]}}{\partial z^{[1]}} \frac{\partial z^{[1]}}{\partial b^{[1]}}$ 。这样也得到了dW[1] $d W^{[1]}$ 和db[1] $d b^{[1]}$ 。

在使用随机梯度下降(SGD)优化算法以及交叉熵(Cross Entropy)损失函数的时候，我们令a[2]=y^ $a^{[2]} = \hat{y}$ ，即损失函数：

L(y^,y)=−(ylogy^+(1−y)log(1−y^)) $L (\hat{y}, y) = - (y l o g \hat{y} + (1 - y) l o g (1 - \hat{y}))$

使用sigmoid激活函数，即

a[1]=σ(z[1])=11+e−z[1]a[2]=σ(z[2])=11+e−z[2] $a^{[1]} = σ (z^{[1]}) = \frac{1}{1 + e^{- z^{[1]}}} a^{[2]} = σ (z^{[2]}) = \frac{1}{1 + e^{- z^{[2]}}}$

将该激活函数和损失函数代入上面的计算过程，可以得到：

dz[2]=a[2]−ydW[2]=dz[2]a[1]Tdb[2]=dz[2]dz[1]=W[2]Tdz[2]∗σ′(z[1])dW[1]=dz[1]xTdb[1]=dz[1] $d z^{[2]} = a^{[2]} - y d W^{[2]} = d z^{[2]} a^{[1] T} d b^{[2]} = d z^{[2]} d z^{[1]} = W^{[2] T} d z^{[2]} * σ^{^{'}} (z^{[1]}) d W^{[1]} = d z^{[1]} x^{T} d b^{[1]} = d z^{[1]}$

在进行随机梯度下降的过程中，随机选取样本中的一个错误分类点，根据该点计算当前的dW[1],db[1],dW[2],db[2] $d W^{[1]}, d b^{[1]}, d W^{[2]}, d b^{[2]}$ ，然后利用以下公式来更新W[1],b[1],W[2],b[2] $W^{[1]}, b^{[1]}, W^{[2]}, b^{[2]}$ ：

W[2]:=W[2]−α∗dW[2]b[2]:=b[2]−α∗db[2]W[1]:=W[1]−α∗dW[1]b[1]:=b[1]−α∗db[1] $W^{[2]} := W^{[2]} - α * d W^{[2]} b^{[2]} := b^{[2]} - α * d b^{[2]} W^{[1]} := W^{[1]} - α * d W^{[1]} b^{[1]} := b^{[1]} - α * d b^{[1]}$

直到收敛为止。

对于神经网络的训练，还有批量梯度下降(Batch Gradient Descent)和小批量梯度下降(Mini-Batch Gradient Descent)，带动量的随机梯度下降(Momentum)，RMSProp，Adam等方法，后面再做详解。

To be continue…

原文出处

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

牛魔王的故事

手记
篇

粉丝

111

获赞与收藏

628

关注作者，订阅最新文章

阅读免费教程

后端通用面试教程

41个小节 28983 327

网络编程入门教程

20个小节 12033 231

Pandas 入门教程

25个小节 17498 315

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

[机器学习]神经网络反向传播的推导

神经网络反向传播的推导

阅读免费教程