BP神经网络原理简介-智车联盟

1.某一个神经元运行流程

单一神经元的结构如图所示。

首先，使用x与w相乘，开始的时候是随机的给定w的值；

然后，将乘积与偏执b加起来，对于b的理解是就像一元线性回归中的常数项，是用来修正值的。

其次，将和带入激活函数；

最后，将激活函数的值计算损失值，也就是与真实值之间的差异，最终的目标是损失值越小越好。

2.激活函数

常用的损失函数有两种一种是Sigmoid，另外一个是relu。

（1）Sigmoid

首先，其值的范围为0-1之间；

然后，进过e的-z的变换，e的x次方的函数本来是随着x的增加而增加的，但是e的-z次方代表的是随着z的增加而减小，但是最后又进行了一个到数处理，结果还是随着x的增加而增加，并且将值限制在了0-1之间了。但是Sigmoid损失函数仅适合于在分类算法中使用，不适合在回归算法中使用，因为其结果值在0-1之间，值太小，几乎接近与0 ，在回归中很容易导致梯度消失。

（2）Relu

首先，relu函数是一次函数，并且值随着自变量的增大而增大，同时方便在求梯度时方便求导。

其次，因为没有值的大小限制，并且求导较为容易，因此常用与在回归中使用。

3.损失函数

3.1 损失函数

损失函数经过激活函数后的值（预测值）与真实值之间的差异，对其求和既是总体的损失值，但是可在后面+1处理。

损失值不应该与样本的个数有关，因此需要对其求平均值。

3.2 正则项

3.2.2 正则化

神经网络常用L2惩罚项，其目的是：对损失函数更合理，比如：

对于该情况，x与w1的乘积的结果与x与W2的乘积的结果相同，但是对于w1的理解为，因为x的第一个数的权重为1，因此每次都是看中的x的第一个值，x的其余的值不看，也即是每次只是看中一个特征；而w2代表的是x的每个值都看中，每个特征都要考虑。因此w2的权重赋值较w1要好，但是最终计算出来的值是一样的，如何区分？如何表示？

因此权重值的范围都是在0-1之间，因此就可使用正则化处理，全考虑的情况的w平方的值与只考虑一部分特征的的w方的值较小，因此在损失函数的最后面添加一个正则化项。

3.2.2 入的值

入的值是对正则化的限制，限制正则化的作用为多大，并且并不是入的值越小越好，因为越小会产生过拟合。一般选择0.01.