但这并不意味着特工没有学到任何东西。 代理已经实现了一个不同的目标,即它学会了接近实际目标。 因此,我们认为它有一个不同的目标,而不是认为它是失败的。 如果我们在多次迭代中重复此过程,代理将学会实现我们的实际目标。 HER 可以应用于任何非策略算法。 将 HER 的性能与没有 HER 的 DDPG 进行比较,反之亦然,可以看出带有 HER 的 DDPG 的收敛速度比没有 HER 的 DDPG 快。 您可以在以下视频中看到 HER 的性能: [https://youtu.be/Dz_HuzgMxzo。](https://youtu.be/Dz_HuzgMxzo)
但这并不意味着特工没有学到任何东西。 代理已经实现了一个不同的目标,即它学会了接近实际目标。 因此,我们认为它有一个不同的目标,而不是认为它是失败的。 如果我们在多次迭代中重复此过程,代理将学会实现我们的实际目标。 HER 可以应用于任何非策略算法。 将 HER 的性能与没有 HER 的 DDPG 进行比较,反之亦然,可以看出带有 HER 的 DDPG 的收敛速度比没有 HER 的 DDPG 快。 [您可以在以下视频中看到 HER 的性能](https://youtu.be/Dz_HuzgMxzo)。
我们还提供了 PDF 文件,其中包含本书中使用的屏幕截图/图表的彩色图像。 您可以在此处下载: [https://www.packtpub.com/sites/default/files/downloads/9781788996921_ColorImages.pdf](https://www.packtpub.com/sites/default/files/downloads/9781788996921_ColorImages.pdf)。
我们还提供了 PDF 文件,其中包含本书中使用的屏幕截图/图表的彩色图像。 [您可以在此处下载](https://www.packtpub.com/sites/default/files/downloads/9781788996921_ColorImages.pdf)。
在本章中,我们将使用草绘的轮廓生成手袋,而无需使用 DiscoGAN 进行显式配对。 我们将草图图像表示为属于域 A,而将自然手袋图像表示为属于域 B。将有两种生成器:一种生成器,用于获取域 A 的图像并将其映射到在域 B 下看起来逼真的图像,以及 另一个与此相反:将域 B 中的手袋图像映射到在域 A 下看起来很逼真的图像。鉴别者将尝试从每个域中真实图像的生成器中识别生成器生成的虚假图像。 生成器和判别器将相互进行 minimax 零和游戏。
在本章中,我们将使用草绘的轮廓生成手袋,而无需使用 DiscoGAN 进行显式配对。 我们将草图图像表示为属于域 A,而将自然手袋图像表示为属于域 B。将有两种生成器:一种生成器,用于获取域 A 的图像并将其映射到在域 B 下看起来逼真的图像,以及 另一个与此相反:将域 B 中的手袋图像映射到在域 A 下看起来很逼真的图像。鉴别者将尝试从每个域中真实图像的生成器中识别生成器生成的虚假图像。 生成器和判别器将相互进行 minimax 零和游戏。