提交 bc3eb88e 编写于 作者: A Aston Zhang

till softmax reg ce loss para2

上级 1182db16
......@@ -109,9 +109,9 @@ $$
## 交叉熵损失函数
前面提到,使用softmax运算后可以更方便地与离散标签计算误差。我们已经知道,softmax运算将输出变换成一个合法的类别预测分布。实际上,真实标签也可以当作类别分布:对于样本$i$,我们构造$\boldsymbol{y}^{(i)}\in \mathbb{R}^{q}$ ,使得其第$y^{(i)}$个元素为1,其余为0。这样我们的训练目标可以设为使得预测概率分布$\boldsymbol{\hat y}^{(i)}$尽可能的接近标注概率分布$\boldsymbol{y}^{(i)}$。
前面提到,使用softmax运算后可以更方便地与离散标签计算误差。我们已经知道,softmax运算将输出变换成一个合法的类别预测分布。实际上,真实标签也可以用类别分布表达:对于样本$i$,我们构造向量$\boldsymbol{y}^{(i)}\in \mathbb{R}^{q}$ ,使得其第$y^{(i)}$(样本$i$类别的离散数值)个元素为1,其余为0。这样我们的训练目标可以设为使预测概率分布$\boldsymbol{\hat y}^{(i)}$尽可能接近真实的标签概率分布$\boldsymbol{y}^{(i)}$。
我们可以跟线性回归那样使用平方损失函数$\frac{1}{2}\|\boldsymbol{\hat y}^{(i)}-\boldsymbol{y}^{(i)}\|^2$。但注意到想要预测分类结果正确,我们不需要预测概率完全等于标注概率,例如在图像分类的例子里,如果$y^{(i)}=2$,那么我们只需要$\hat y^{(i)}_2$比其他两个预测值大就行了。即使其值为0.5,不管其他两个值为多少,类别预测均正确。而平方损失则过于严格,例如$\hat y^{(i)}_0=\hat y^{(i)}_1=0.1$比$\hat y^{(i)}_0=0, \hat y^{(i)}_1=.2$的损失要小很多,虽然两者都有同样正确的分类预测结果。
我们可以跟线性回归那样使用平方损失函数$\|\boldsymbol{\hat y}^{(i)}-\boldsymbol{y}^{(i)}\|^2/2$。但注意到想要预测分类结果正确,我们不需要预测概率完全等于标注概率,例如在图像分类的例子里,如果$y^{(i)}=2$,那么我们只需要$\hat y^{(i)}_2$比其他两个预测值大就行了。即使其值为0.5,不管其他两个值为多少,类别预测均正确。而平方损失则过于严格,例如$\hat y^{(i)}_0=\hat y^{(i)}_1=0.1$比$\hat y^{(i)}_0=0, \hat y^{(i)}_1=.2$的损失要小很多,虽然两者都有同样正确的分类预测结果。
改善这一问题是一个方法是使用更适合衡量两个概率分布不同的测量函数,其中交叉熵(cross entropy)是一个常用的衡量方法:
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册