Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
d2l-zh
提交
bc3eb88e
D
d2l-zh
项目概览
OpenDocCN
/
d2l-zh
通知
2
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
d2l-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
bc3eb88e
编写于
9月 06, 2018
作者:
A
Aston Zhang
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
till softmax reg ce loss para2
上级
1182db16
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
2 addition
and
2 deletion
+2
-2
chapter_deep-learning-basics/softmax-regression.md
chapter_deep-learning-basics/softmax-regression.md
+2
-2
未找到文件。
chapter_deep-learning-basics/softmax-regression.md
浏览文件 @
bc3eb88e
...
...
@@ -109,9 +109,9 @@ $$
## 交叉熵损失函数
前面提到,使用softmax运算后可以更方便地与离散标签计算误差。我们已经知道,softmax运算将输出变换成一个合法的类别预测分布。实际上,真实标签也可以
当作类别分布:对于样本$i$,我们构造$
\b
oldsymbol{y}^{(i)}
\i
n
\m
athbb{R}^{q}$ ,使得其第$y^{(i)}$个元素为1,其余为0。这样我们的训练目标可以设为使得预测概率分布$
\b
oldsymbol{
\h
at y}^{(i)}$尽可能的接近标注
概率分布$
\b
oldsymbol{y}^{(i)}$。
前面提到,使用softmax运算后可以更方便地与离散标签计算误差。我们已经知道,softmax运算将输出变换成一个合法的类别预测分布。实际上,真实标签也可以
用类别分布表达:对于样本$i$,我们构造向量$
\b
oldsymbol{y}^{(i)}
\i
n
\m
athbb{R}^{q}$ ,使得其第$y^{(i)}$(样本$i$类别的离散数值)个元素为1,其余为0。这样我们的训练目标可以设为使预测概率分布$
\b
oldsymbol{
\h
at y}^{(i)}$尽可能接近真实的标签
概率分布$
\b
oldsymbol{y}^{(i)}$。
我们可以跟线性回归那样使用平方损失函数$
\
f
rac{1}{2}
\|\b
oldsymbol{
\h
at y}^{(i)}-
\b
oldsymbol{y}^{(i)}
\|
^
2$。但注意到想要预测分类结果正确,我们不需要预测概率完全等于标注概率,例如在图像分类的例子里,如果$y^{(i)}=2$,那么我们只需要$
\h
at y^{(i)}_2$比其他两个预测值大就行了。即使其值为0.5,不管其他两个值为多少,类别预测均正确。而平方损失则过于严格,例如$
\h
at y^{(i)}_0=
\h
at y^{(i)}_1=0.1$比$
\h
at y^{(i)}_0=0,
\h
at y^{(i)}_1=.2$的损失要小很多,虽然两者都有同样正确的分类预测结果。
我们可以跟线性回归那样使用平方损失函数$
\
|\b
oldsymbol{
\h
at y}^{(i)}-
\b
oldsymbol{y}^{(i)}
\|
^2/
2$。但注意到想要预测分类结果正确,我们不需要预测概率完全等于标注概率,例如在图像分类的例子里,如果$y^{(i)}=2$,那么我们只需要$
\h
at y^{(i)}_2$比其他两个预测值大就行了。即使其值为0.5,不管其他两个值为多少,类别预测均正确。而平方损失则过于严格,例如$
\h
at y^{(i)}_0=
\h
at y^{(i)}_1=0.1$比$
\h
at y^{(i)}_0=0,
\h
at y^{(i)}_1=.2$的损失要小很多,虽然两者都有同样正确的分类预测结果。
改善这一问题是一个方法是使用更适合衡量两个概率分布不同的测量函数,其中交叉熵(cross entropy)是一个常用的衡量方法:
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录