提交 01e291d5 编写于 作者: X xiaowei_xing

test

上级 a97cf7d9
......@@ -572,11 +572,11 @@ $$
**解答** $\text{actions}$ 的形状为 $(N\ast T,d_{a})$,$\text{states}$ 的形状为 $(N\ast T,d_{s})$,$\text{q_values}$ 的形状为 $(N\ast T,1)$。
$logits = policy.predictions(states)$
`logits = policy.predictions(states)`
$\text{negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(}$
`negative_likelihoods = tf.nn.softmax_cross_entropy_with_logits(`
$\quad\quad\text{labels=actions, logits=logits)}$
`$\quad\quad$ labels=actions, logits=logits)`
$\color{red}{\text{weighted_negative_likelihoods = tf.multiply(negative_likelihoods, q_values)}}$
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册