提交 1260c729 编写于 作者: X xiaowei_xing

test

上级 be842c30
......@@ -554,6 +554,8 @@ $$
**练习 6.7** 这里是对离散动作空间使用自动微分来执行最大似然估计的伪代码。
${\sf logits = policy.predictions(states)}$
$\text{logits = policy.predictions(states)}$
${\sf negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(labels=actions, logits=logits)}$
\ No newline at end of file
$\text{negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(}$
$\text{labels=actions, logits=logits)}$
\ No newline at end of file
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册