每个 GAN <sub>i</sub> 使用潜码`z[i]`,以调节其发电机输出。 例如,潜在代码`z[0]`可以将发型从卷曲更改为波浪形。 GAN 的堆栈也可以用作合成假名人面孔的对象,从而完成整个*编码器*的逆过程。 每个 GAN <sub>i</sub>,`z[i]`的潜在代码都可以用来更改假名人面孔的特定属性。
每个`GAN[i]`使用潜码`z[i]`,以调节其发电机输出。 例如,潜在代码`z[0]`可以将发型从卷曲更改为波浪形。 GAN 的堆栈也可以用作合成假名人面孔的对象,从而完成整个*编码器*的逆过程。 每个`GAN[i]`,`z[i]`的潜在代码都可以用来更改假名人面孔的特定属性。
在基础网络之后可以应用其他特征提取模块。 每个特征提取器块都是`Conv2D(strides=2)-BN-ELU`的形式。 在特征提取块之后,特征图的大小减半,并且过滤器的数量增加一倍。 例如,基本网络之后的第一个特征提取器块具有 20 x 15 x 2`n`<sub>过滤器</sub>特征图。 根据该特征图,使用卷积层进行`n[2]`类和`n[2]`偏移量预测。`n[2]`= 20 x 15 x 4 = 1,200
可以继续添加具有类和偏移量预测变量的特征提取块的过程。 在前面的部分中,对于 640 x 480 的图像,最大可达 2 x 1 x 2 <sup>5</sup>`n`<sub>滤镜</sub>特征图产生`n[6]`类和`n[6]`抵消了其中 n <sub>6</sub>= 2 x 1 x 4 = 8 的预测。 ]到 6 层特征提取和预测块。 在第 6 <sup>个</sup>块之后,一个 640 x 480 图像的锚点地图预测总数为 9,648。
可以继续添加具有类和偏移量预测变量的特征提取块的过程。 在前面的部分中,对于 640 x 480 的图像,最大可达 2 x 1 x 2 <sup>5</sup>`n`<sub>滤镜</sub>特征图产生`n[6]`类和`n[6]`抵消了其中`n[6]`= 2 x 1 x 4 = 8 的预测。 ]到 6 层特征提取和预测块。 在第 6 <sup>个</sup>块之后,一个 640 x 480 图像的锚点地图预测总数为 9,648。
让我们假设我们的数据集中有`n`个样本。 这意味着我们将具有`n`个预测值( *y <sub>1,...,</sub> y <sub>i,...,</sub> y <sub>n</sub>* )和`n`对应的期望值(![](img/e653a15c-2e34-4100-aac3-504f856cb54f.png))。 均方由以下公式定义:
让我们假设我们的数据集中有`n`个样本。 这意味着我们将具有`n`个预测值( *y <sub>1,...,</sub> y <sub>i,...,</sub>`y[n]`* )和`n`对应的期望值(![](img/e653a15c-2e34-4100-aac3-504f856cb54f.png))。 均方由以下公式定义:
现在我们能够计算吉布斯采样前后的可见输入和条件概率 *P(h | v)*,我们可以计算梯度,包括![](img/672584aa-4b9b-4feb-9717-4b072ab2f22a.png)*,Δa= v <sub>0</sub> -v <sub> k </sub>* 和*Δb= P(h | v <sup>(0)</sup>)-P(h | v <sup>(k)</sup> )*,如下所示:
现在我们能够计算吉布斯采样前后的可见输入和条件概率 *P(h | v)*,我们可以计算梯度,包括![](img/672584aa-4b9b-4feb-9717-4b072ab2f22a.png)*,Δa=`v[0]`-v <sub> k </sub>* 和*Δb= P(h | v <sup>(0)</sup>)-P(h | v <sup>(k)</sup> )*,如下所示:
第一个特征图集是从 VGG 16 体系结构的第 23 层提取的,大小为 38 x 38 x 512(此处 512 是过滤器的深度或数量)。 第二组要素图的大小为 19 x 19 x 1,024,适用于捕获稍大的对象。 进一步的特征图集将尺寸减小到 10 x 10 x 512、5 x 5 x 256、3 x 3 x 256,最后减小到 1 x 1 x 256。
2. 对于图像 G 中每个具有强度 I <sub>c</sub> (x,y)的像素,选择`P`相邻点(p <sub>0</sub> ,p <sub>1</sub> .. p <sub>P-1</sub> ),其半径[I <sub>0</sub> ,I <sub>1</sub> .. I <sub>P-1</sub> )具有相应的强度。`R`。 半径以像素为单位定义为两个像素之间的差。 像素和相邻点代表图像 G 的滑动窗口 W。对于半径 R = 1,P 变为 8,如下所示。
2. 对于图像 G 中每个具有强度`I[c]`(x,y)的像素,选择`P`相邻点(`p[0]`,`p[1]`.. p <sub>P-1</sub> ),其半径[`I[0]`,`I[1]`.. I <sub>P-1</sub> )具有相应的强度。`R`。 半径以像素为单位定义为两个像素之间的差。 像素和相邻点代表图像 G 的滑动窗口 W。对于半径 R = 1,P 变为 8,如下所示。
滑动窗口 W <sub>0</sub> 用![](img/da8626a4-00d9-4c10-8f2c-bc2209a48071.png)表示为数组。 在这里,点 0 到 P-1 代表围绕中心像素 c 的 P 个点的强度:
滑动窗口`W[0]`用![](img/da8626a4-00d9-4c10-8f2c-bc2209a48071.png)表示为数组。 在这里,点 0 到 P-1 代表围绕中心像素 c 的 P 个点的强度: