Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
大唐爆破僧
apachecn-dl-zh
提交
40b75534
A
apachecn-dl-zh
项目概览
大唐爆破僧
/
apachecn-dl-zh
与 Fork 源项目一致
Fork自
OpenDocCN / apachecn-dl-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-dl-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
40b75534
编写于
1月 08, 2021
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2021-01-08 21:03:42
上级
a81772b0
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
4 addition
and
4 deletion
+4
-4
new/handson-dl-arch-py/7.md
new/handson-dl-arch-py/7.md
+1
-1
new/handson-dl-arch-py/8.md
new/handson-dl-arch-py/8.md
+3
-3
未找到文件。
new/handson-dl-arch-py/7.md
浏览文件 @
40b75534
...
@@ -175,7 +175,7 @@ Training dataset shape: (70000, 784)
...
@@ -175,7 +175,7 @@ Training dataset shape: (70000, 784)
...
return
out
...
return
out
```
```
发生器将输入的随机噪声依次馈入三个隐藏层,分别具有 256、512 和 1,024 个隐藏单元。 请注意,每个隐藏层的激活功能是
**泄漏的 ReLU**
,这是 ReLU 的变体。 发明它是为了解决即将死去的 ReLU 问题,即对于该函数的任何负输入,其输出变为零。 它定义为
!
[](
img/2ecc70bc-0e05-4657-80ff-790bda4aa62a.png
)
,其中!
[](
img/7b12021f-d3c1-44e4-a3d3-dc5f6c9b38af.png
)
是介于 0 到 1 之间的斜率因子(但较小的值更常见)。 下图显示了 ReLU 和泄漏版本之间的比较(例如
`leak = 0.2`
):
发生器将输入的随机噪声依次馈入三个隐藏层,分别具有 256、512 和 1,024 个隐藏单元。 请注意,每个隐藏层的激活功能是
**泄漏的 ReLU**
,这是 ReLU 的变体。 发明它是为了解决即将死去的 ReLU 问题,即对于该函数的任何负输入,其输出变为零。 它定义为
`f(x) = max(x, ax)`
,其中
`a`
是介于 0 到 1 之间的斜率因子(但较小的值更常见)。 下图显示了 ReLU 和泄漏版本之间的比较(例如
`leak = 0.2`
):
![](
img/cf5a3eb1-3ff7-456e-88cc-6a0da05e52df.png
)
![](
img/cf5a3eb1-3ff7-456e-88cc-6a0da05e52df.png
)
...
...
new/handson-dl-arch-py/8.md
浏览文件 @
40b75534
...
@@ -41,9 +41,9 @@
...
@@ -41,9 +41,9 @@
`w = argmax[w] logP(x, y | w)`
`w = argmax[w] logP(x, y | w)`
训练模型后,参数的每个系数(例如
!
[](
img/70cea0c9-e117-425b-b461-abf4d08ab1d1.png
)
)都是标量,例如
`w[1] = 1`
,
`w[2] = 3`
。
训练模型后,参数的每个系数(例如
`w[1], w[2], ..., b[1], b[2], ...`
)都是标量,例如
`w[1] = 1`
,
`w[2] = 3`
。
相反,在贝叶斯学习中,每个系数都与一个分布相关联。 例如,它们可以处于高斯分布
!
[](
img/116b4a14-a219-493f-9d5d-b7991e04a81e.png
)
,如下图所示:
相反,在贝叶斯学习中,每个系数都与一个分布相关联。 例如,它们可以处于高斯分布
`w[1] ~ N(1, 1), w[2] ~ N(3, 2)`
,如下图所示:
![](
img/3010227e-776a-46fa-9aeb-f329241ea595.png
)
![](
img/3010227e-776a-46fa-9aeb-f329241ea595.png
)
...
@@ -352,7 +352,7 @@ The predictions for the notMNIST example are: [2.0, 5.0, 2.0, 2.0, 2.0, 2.0, 2.0
...
@@ -352,7 +352,7 @@ The predictions for the notMNIST example are: [2.0, 5.0, 2.0, 2.0, 2.0, 2.0, 2.0
![](
img/eee9ed28-bc15-4653-bf6a-cda18d99451b.png
)
![](
img/eee9ed28-bc15-4653-bf6a-cda18d99451b.png
)
胶囊不是直接进行加权和,而是首先运行矩阵乘法以获得更高级别的特征。 让我们重用我们的摩天大楼检测示例,并假设我们有一个输入矢量
!
[](
img/d191bdcb-c2ba-4377-a2da-0e3e806ce046.png
)
用于检测矩形,!
[](
img/ecc3584c-e4b0-46ca-8424-0cf8b1f23f67.png
)
用于检测三角形。 然后将这两个向量乘以仿射变换矩阵
`W`
的相应权重向量。 权重向量可能会编码矩形和摩天大楼之间的相对位置,而另一个权重向量可能会尝试了解三角形和摩天大楼之间关系的方向。 进行仿射变换后,我们可以获得较高级别的特征!
[](
img/288c214c-12fa-4867-8dd9-1ec257b6a3ec.png
)
和!
[](
img/6fac3b7a-c0d4-482f-b5a1-3e0401e4db5f.png
)
,它们根据三角形和矩形的位置和方向表示摩天大楼的位置和方式。
胶囊不是直接进行加权和,而是首先运行矩阵乘法以获得更高级别的特征。 让我们重用我们的摩天大楼检测示例,并假设我们有一个输入矢量
`u[1]`
用于检测矩形,
`u[2]`
用于检测三角形。 然后将这两个向量乘以仿射变换矩阵
`W`
的相应权重向量。 权重向量可能会编码矩形和摩天大楼之间的相对位置,而另一个权重向量可能会尝试了解三角形和摩天大楼之间关系的方向。 进行仿射变换后,我们可以获得较高级别的特征
`u_hat[1]`
和
`u_hat[2]`
,它们根据三角形和矩形的位置和方向表示摩天大楼的位置和方式。
此后,下一步是执行加权和,这听起来很熟悉。 在传统的神经元中,权重是通过反向传播进行优化和计算的。 但是,在捕获中使用
**动态路由**
学习权重。 动态路由的主要思想是使用多数表决来确定最可能的对象应该喜欢什么。 接近真实预测的向量的权重
`c`
应具有较高的值,与远离正确预测的向量相对应的权重
`c`
应具有较低的值。
此后,下一步是执行加权和,这听起来很熟悉。 在传统的神经元中,权重是通过反向传播进行优化和计算的。 但是,在捕获中使用
**动态路由**
学习权重。 动态路由的主要思想是使用多数表决来确定最可能的对象应该喜欢什么。 接近真实预测的向量的权重
`c`
应具有较高的值,与远离正确预测的向量相对应的权重
`c`
应具有较低的值。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录