第一层由批量输入矩阵,权重和偏差之间的矩阵乘法和加法组成。 此时,`a2`张量应具有一个`grad_fn`,这应该是矩阵加法的后向操作。 但是,由于我们还没有进行反向传递,因此`.grad`应该返回`None`和`.data`,并且将一如既往地返回张量,以及矩阵乘法和偏差加法的结果。 神经元活动由 S 形激活函数定义,它以**h2**(代表第二层中的隐藏单位)的输出形式提供给我们。 第二层采用相同的结构:矩阵乘法,偏差加法和 S 形。 最后得到`hyp`,它具有预期的结果:
第一层由批量输入矩阵,权重和偏差之间的矩阵乘法和加法组成。 此时,`a2`张量应具有一个`grad_fn`,这应该是矩阵加法的后向操作。 但是,由于我们还没有进行反向传递,因此`.grad`应该返回`None`和`.data`,并且将一如既往地返回张量,以及矩阵乘法和偏差加法的结果。 神经元活动由 S 形激活函数定义,它以`h2`(代表第二层中的隐藏单位)的输出形式提供给我们。 第二层采用相同的结构:矩阵乘法,偏差加法和 S 形。 最后得到`hyp`,它具有预期的结果:
诸如处理连续动作空间域的策略梯度之类的算法归为**连续动作空间**(**CAS**)算法。 因此,在行动空间上提供随机表示的基于策略的方法解决了该问题,而不是 DAS 算法中的离散化。 CAS 算法最初是开发并用于低维状态空间,后来使用基于 CNN 的架构扩展到高维状态空间。 CAS 算法分为两个子类别:**随机连续动作空间**(**SCAS**)和**确定性连续动作空间**(**DCAS**)算法。 它们之间的主要区别在于复杂性,因为 SCAS 算法提供了更好的覆盖范围,因此需要大量的训练样本来学习更好的策略。 在现实世界的机器人应用中获取大量训练样本是非常不可行的,因此,仿真必须以尽可能最佳的方式表示现实世界,否则生成现实世界的数据将非常昂贵。