From be5f23bb606d3aae57edf228a2d90eb05bda76a4 Mon Sep 17 00:00:00 2001 From: wizardforcel <562826179@qq.com> Date: Thu, 7 Jan 2021 20:31:35 +0800 Subject: [PATCH] 2021-01-07 20:31:35 --- new/adv-dl-tf2-keras/05.md | 13 +++++-------- new/adv-dl-tf2-keras/13.md | 2 +- 2 files changed, 6 insertions(+), 9 deletions(-) diff --git a/new/adv-dl-tf2-keras/05.md b/new/adv-dl-tf2-keras/05.md index 103876b6..e80d649e 100644 --- a/new/adv-dl-tf2-keras/05.md +++ b/new/adv-dl-tf2-keras/05.md @@ -31,9 +31,9 @@ WGAN 认为 GAN 固有的不稳定性是由于它的损失函数引起的,该 可以通过检查其损失函数来了解训练 GAN 的稳定性。 为了更好地理解 GAN 损失函数,我们将回顾两个概率分布之间的公共距离或散度函数。 -我们关注的是用于真实数据分配的`p_data`与用于发电机数据分配的`p_g`之间的距离。 GAN 的目标是制造![](img/B14853_05_001.png)。“表 5.1.1”显示了散度函数。 +我们关注的是用于真实数据分配的`p_data`与用于发电机数据分配的`p_g`之间的距离。 GAN 的目标是制造`p_g -> p_data`。“表 5.1.1”显示了散度函数。 -在大多数个最大似然任务中,我们将使用 **Kullback-Leibler**(**KL**)散度,或`D[KL]`损失函数可以衡量我们的神经网络模型预测与真实分布函数之间的距离。 如“公式 5.1.1”所示,由于![](img/B14853_05_002.png),所以`D[KL]`不对称。 +在大多数个最大似然任务中,我们将使用 **Kullback-Leibler**(**KL**)散度,或`D[KL]`损失函数可以衡量我们的神经网络模型预测与真实分布函数之间的距离。 如“公式 5.1.1”所示,由于`D[KL](p_data || p_g) ≠ D[KL](p_g || p_data)`,所以`D[KL]`不对称。 **JS** 或`D[JS]`是基于`D[KL]`的差异。 但是,与`D[KL]`不同,`D[JS]`是对称的并且是有限的。 在本节中,我们将演示优化 GAN 损失函数等同于优化`D[JS]`: @@ -42,15 +42,12 @@ WGAN 认为 GAN 固有的不稳定性是由于它的损失函数引起的,该 | Kullback-Leibler(KL)“公式 5.1.1” | ![](img/B14853_05_003.png) | | | ![](img/B14853_05_004.png) | | *詹森·香农(JS)“公式 5.1.2” | ![](img/B14853_05_005.png) | -| 陆地移动距离(EMD)或 Wasserstein 1 “公式 5.1.3” | - -![](img/B14853_05_006.png) - -其中![](img/B14853_05_007.png)是所有联合分布![](img/B14853_05_008.png)的集合,其边际为`p_data`和`p_g`。 +| 陆地移动距离(EMD)或 Wasserstein 1 “公式 5.1.3” | ![](img/B14853_05_006.png) | +| | 其中![](img/B14853_05_007.png)是所有联合分布![](img/B14853_05_008.png)的集合,其边际为`p_data`和`p_g`。 | 表 5.1.1:两个概率分布函数`p_data`和`p_g`之间的散度函数 -EMD 背后的想法是,它是为了确定概率分布`p_data`应由![](img/B14853_05_010.png)传输多少质量![](img/B14853_05_009.png)。 `p_g`。 ![](img/B14853_05_011.png)是所有可能的关节分布[H​​TG11]中的关节分布。 ![](img/B14853_05_013.png)也被称为运输计划,以反映运输质量以匹配两个概率分布的策略。 给定两个概率分布,有许多可能的运输计划。 大致而言, `inf`表示成本最低的运输计划。 +EMD 背后的想法是,它是`d = ||x - y||`传输多少质量`γ(x, y)`,为了让概率分布`p_data`匹配`p_g`的度量。 `γ(x, y)`是所有可能的联合分布`Π(p_data, p_g)`的空间中的联合分布。 `γ(x, y)`也被称为运输计划,以反映运输质量以匹配两个概率分布的策略。 给定两个概率分布,有许多可能的运输计划。 大致而言, `inf`表示成本最低的运输计划。 例如,“图 5.1.1”向我们展示了两个简单的离散分布`x`和`y`: diff --git a/new/adv-dl-tf2-keras/13.md b/new/adv-dl-tf2-keras/13.md index 799342b8..ab4ae071 100644 --- a/new/adv-dl-tf2-keras/13.md +++ b/new/adv-dl-tf2-keras/13.md @@ -228,7 +228,7 @@ Ji 等人的**不变信息聚类**(**IIC**)[1] 建议从联合和边际分 图 13.4.3 缩小的 VGG 用作编码器主干 -“图 13.4.4”显示了“图 13.4.1”的 Keras 模型图。 为了提高性能,IIC 执行了超集群。 两个或更多编码器用于生成两个或更多个边际分布`P(Z)`和![](img/B14853_13_068.png)。 生成相应的关节分布。 就网络模型的而言,这是由具有两个或更多头的编码器实现的。 +“图 13.4.4”显示了“图 13.4.1”的 Keras 模型图。 为了提高性能,IIC 执行了超集群。 两个或更多编码器用于生成两个或更多个边际分布`P(Z)`和![](img/B14853_13_068.png)。 生成相应的联合分布。 就网络模型的而言,这是由具有两个或更多头的编码器实现的。 ![A screenshot of a cell phone Description automatically generated](img/B14853_13_06.png) -- GitLab