¥
支付方式
请使用微信扫一扫 扫描二维码支付
请使用支付宝扫一扫 扫描二维码支付
开通会员,立省200元 立即开通
1. 误差函数E对矩阵求导,就是对矩阵中每个元素分别求导,结果还是一个矩阵。
E = f(Y)
Y = XW
E对W求导,留下的是X的转置和E对Y的导;
E对X求导,留下的是W的转置和E对Y的导;
一定要注意,因为是对矩阵求导,所以留下的一定要转置,并且要注意转置在E对Y的导的左右顺序(和Y=XW乘法顺序一致(也可以通过矩阵乘法规则推理出来))。
梯度下降法更新权重,二维平面中,移动的方向总和斜率(目标函数/损失函数对W求导)的正负相反。求得最低点导数时,此刻也就是我们所需要的W的值。
引出权重更新公式,公式中同时包括了学习率,也就是学习步长。
终止训练:
可以按照迭代次数终止,也可以按照损失函数小于某个值时终止。