【中文字幕】2017春季CS231n 斯坦福深度视觉识别课

# Vanilla Gradient Descent while True: weights_grad=evaluate_gradient(loss_fun,data,weights) weights+=-step_size*weights_grad # perform parameter update # Adam (almost) first_moment=0 second_moment=0 while True: dx=compute_gradient(x) first_moment=beta1*first_moment+(1-beta1)*dx second_moment=beta2*second_moment+(1-beta2)*dx*dx x-=learning_rate*first_moment/(np.sqrt(second_moment)+1e-7) while True: data_batch=dataset.sample_data_batch() loss=network.forwadr(data_batch) dx=network.backward() x+=-learning_rate*dx x_test=0.995*x_test+0.005*x # use for test set

[展开全文]

张广慧 · 2018-08-15 · 7.1 更好的优化 0

在线性分类器中，W是一个分类模板，体现了所有训练数据的经验知识，而W是通过训练过程得到的；线性分类的过程很简单，当输入一张图片，将此图片拉长成一个三维长向量，乘以参数矩阵W，得到所有分类的评分，某一类的得分最高，就将此输入的图片分为哪一类。如果某一类的得分很低，那么就表示输入为此类的概率很小。当W的值不同的时候，得到的分类分数也不同，要使得分类正确的概率最高就需要选择最佳的W，那么就需要损失函数。损失函数是所有样本的预测分数与实际分数的差的平均值。

在两类SVM中，分类类别为正例和反例。

在这个例子中，输入为猫的损失函数为：Li=max(0,5.1-3.2+1)+max(0,-1.7-3.2+1)

在SVM中，损失函数在所有错误分类的分数小于正确分数分类的分数，或者正确分类的分数超过错误分类的分数一定的边界，则定义损失函数为0；如果错误分类的分数大于正确分类的分数，那么损失函数就是所有样本错误分类的分数的平均值。Sji为正确分类的分数；此函数就像一个合页。随着正确分类的分数增加，其损失函数越低。损失函数的值最小为0，最大为无穷大。在最初训练的时候，我们会初始化W的值。如果所有的分数都差不多，当使用多分类SVM时，那么损失函数将会是分类类别-1；因为所有的错误分类数为c-1，损失函数就存在c-1个为的边界。损失函数如果不使用求和而使用平均值的话其最终的值是没有差别的。如果算上所有的类别，那么损失函数加上1.

代码例子：