提交 40b75534 编写于 作者: W wizardforcel

2021-01-08 21:03:42

上级 a81772b0
......@@ -175,7 +175,7 @@ Training dataset shape: (70000, 784)
... return out
```
发生器将输入的随机噪声依次馈入三个隐藏层,分别具有 256、512 和 1,024 个隐藏单元。 请注意,每个隐藏层的激活功能是**泄漏的 ReLU**,这是 ReLU 的变体。 发明它是为了解决即将死去的 ReLU 问题,即对于该函数的任何负输入,其输出变为零。 它定义为![](img/2ecc70bc-0e05-4657-80ff-790bda4aa62a.png),其中![](img/7b12021f-d3c1-44e4-a3d3-dc5f6c9b38af.png)是介于 0 到 1 之间的斜率因子(但较小的值更常见)。 下图显示了 ReLU 和泄漏版本之间的比较(例如`leak = 0.2`):
发生器将输入的随机噪声依次馈入三个隐藏层,分别具有 256、512 和 1,024 个隐藏单元。 请注意,每个隐藏层的激活功能是**泄漏的 ReLU**,这是 ReLU 的变体。 发明它是为了解决即将死去的 ReLU 问题,即对于该函数的任何负输入,其输出变为零。 它定义为`f(x) = max(x, ax)`,其中`a`是介于 0 到 1 之间的斜率因子(但较小的值更常见)。 下图显示了 ReLU 和泄漏版本之间的比较(例如`leak = 0.2`):
![](img/cf5a3eb1-3ff7-456e-88cc-6a0da05e52df.png)
......
......@@ -41,9 +41,9 @@
`w = argmax[w] logP(x, y | w)`
训练模型后,参数的每个系数(例如![](img/70cea0c9-e117-425b-b461-abf4d08ab1d1.png))都是标量,例如`w[1] = 1``w[2] = 3`
训练模型后,参数的每个系数(例如`w[1], w[2], ..., b[1], b[2], ...`)都是标量,例如`w[1] = 1``w[2] = 3`
相反,在贝叶斯学习中,每个系数都与一个分布相关联。 例如,它们可以处于高斯分布![](img/116b4a14-a219-493f-9d5d-b7991e04a81e.png),如下图所示:
相反,在贝叶斯学习中,每个系数都与一个分布相关联。 例如,它们可以处于高斯分布`w[1] ~ N(1, 1), w[2] ~ N(3, 2)`,如下图所示:
![](img/3010227e-776a-46fa-9aeb-f329241ea595.png)
......@@ -352,7 +352,7 @@ The predictions for the notMNIST example are: [2.0, 5.0, 2.0, 2.0, 2.0, 2.0, 2.0
![](img/eee9ed28-bc15-4653-bf6a-cda18d99451b.png)
胶囊不是直接进行加权和,而是首先运行矩阵乘法以获得更高级别的特征。 让我们重用我们的摩天大楼检测示例,并假设我们有一个输入矢量![](img/d191bdcb-c2ba-4377-a2da-0e3e806ce046.png)用于检测矩形,![](img/ecc3584c-e4b0-46ca-8424-0cf8b1f23f67.png)用于检测三角形。 然后将这两个向量乘以仿射变换矩阵`W`的相应权重向量。 权重向量可能会编码矩形和摩天大楼之间的相对位置,而另一个权重向量可能会尝试了解三角形和摩天大楼之间关系的方向。 进行仿射变换后,我们可以获得较高级别的特征![](img/288c214c-12fa-4867-8dd9-1ec257b6a3ec.png)和![](img/6fac3b7a-c0d4-482f-b5a1-3e0401e4db5f.png),它们根据三角形和矩形的位置和方向表示摩天大楼的位置和方式。
胶囊不是直接进行加权和,而是首先运行矩阵乘法以获得更高级别的特征。 让我们重用我们的摩天大楼检测示例,并假设我们有一个输入矢量`u[1]`用于检测矩形,`u[2]`用于检测三角形。 然后将这两个向量乘以仿射变换矩阵`W`的相应权重向量。 权重向量可能会编码矩形和摩天大楼之间的相对位置,而另一个权重向量可能会尝试了解三角形和摩天大楼之间关系的方向。 进行仿射变换后,我们可以获得较高级别的特征`u_hat[1]``u_hat[2]`,它们根据三角形和矩形的位置和方向表示摩天大楼的位置和方式。
此后,下一步是执行加权和,这听起来很熟悉。 在传统的神经元中,权重是通过反向传播进行优化和计算的。 但是,在捕获中使用**动态路由**学习权重。 动态路由的主要思想是使用多数表决来确定最可能的对象应该喜欢什么。 接近真实预测的向量的权重`c`应具有较高的值,与远离正确预测的向量相对应的权重`c`应具有较低的值。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册