2021-01-22 16:59:49

2029f5b9 · wizardforcel · 3817f649 · 2029f5b9 · 2029f5b9 · 2029f5b9
隐藏空白更改
内联并排

Showing with 6 addition and 7 deletion

new/pt-ai-fund/1.md new/pt-ai-fund/1.md +2 -2

new/pt-ai-fund/4.md new/pt-ai-fund/4.md +1 -1

new/pt-dl-handson/7.md new/pt-dl-handson/7.md +3 -4

未找到文件。
--- a/new/pt-ai-fund/1.md
+++ b/new/pt-ai-fund/1.md
@@ -79,7 +79,7 @@ import numpy

 以下是各种张量：

-*   **标量**：这是一个零阶张量。 标量的示例是 <sub>![](img/28a0205b-6df0-43e3-aa3d-636e2874d00f.png)</sub> 。
+*   **标量**：这是一个零阶张量。 标量的示例是`x[1]`。
 *   **向量**：这是一阶张量； 以下是向量的示例：

 ![](img/bc4636e9-4110-4074-8ac5-420cdab8ce74.png)
@@ -548,7 +548,7 @@ False

 我们可以看到，Autograd 可以跟踪操作。 当我们从`x`，`y=2*x+3`创建张量`y`时，我们会看到一个梯度函数`grad_fn`被附加到张量上。

-我们首先创建一种新的张量，将`require_grad`设置为`True`，然后创建一个张量`y`，使得 <sub>![](img/594db8fc-d20e-4c5b-b232-bb8c64129af8.png)</sub> 并发现`y`具有一个 附加了不同的梯度函数。 我们还研究了使用`requires_grad_()`，最后使用了`no_grad()`。
+我们首先创建一种新的张量，将`require_grad`设置为`True`，然后创建一个张量`y`，使得`y = 2x^2 + 3`并发现`y`具有一个 附加了不同的梯度函数。 我们还研究了使用`requires_grad_()`，最后使用了`no_grad()`。

 PyTorch 有一个名为`autograd`的软件包，可以对张量上的所有操作执行所有跟踪和自动微分。 这是一个按运行定义的框架，这意味着您的反向传播是由代码的运行方式定义的，并且每次迭代都可以不同。 我们利用`torch.Tensor`类的`require_grad`属性来确定梯度计算的状态，并在调用`.backward()`方法后自动计算其`.grad`属性中的所有梯度和张量的梯度。


--- a/new/pt-ai-fund/4.md
+++ b/new/pt-ai-fund/4.md
@@ -323,7 +323,7 @@ pip install torchtext

 # 探索单词嵌入

-单词嵌入是单词的学习表示。 它们是单词的密集表示，其中为每个单词分配一个向量，即预定义向量空间中的实值向量，而不是数字标识符。 例如，一个单词将表示为![](img/e8ab6120-79d8-46fd-aa75-470d721ff4e5.png)`n`维向量-例如，语料库中的单词`book`可能表示为`[0.22, 0.242, ..., ..., 1.234]`而不是`[0, 0, 1, ..., 0]`的单引号表示。
+单词嵌入是单词的学习表示。 它们是单词的密集表示，其中为每个单词分配一个向量，即预定义向量空间中的实值向量，而不是数字标识符。 例如，一个单词将表示为`n`维向量`[x[1], x[2], ..., x[n]]`-例如，语料库中的单词`book`可能表示为`[0.22, 0.242, ..., ..., 1.234]`而不是`[0, 0, 1, ..., 0]`的单引号表示。

 数字表示只是单词的表示； 但是，单词嵌入是标记的表示，其中该表示也包含标记/单词的含义。 模型从单词出现的上下文中获悉了此含义。 在词嵌入中，具有相似含义的词具有相似的表示形式，我们可以对这些词向量执行向量算术，如下所示：


--- a/new/pt-dl-handson/7.md
+++ b/new/pt-dl-handson/7.md
@@ -172,15 +172,14 @@ MDP 定义有五件事：

 我们的代码的训练循环如下所示：

-*   随机初始化`w`![Deep Q-learning](img/B09475_07_007.jpg)
-*   ε 贪婪
+*   随机初始化`w, π <- ε`
 *   对于所有剧集：
    *   观察`S`
    *   虽然`S`并非在每个时间步都是终端：
-    *   使用![Deep Q-learning](img/B09475_07_008.jpg)从`S`中选择`A`
+    *   使用`π, Q`从`S`中选择`A`
    *   观察`R`和`S'`
    *   更新`Q`
-    *   ![Deep Q-learning](img/B09475_07_009.jpg)
+    *   `S <- S'`

 这里要注意的一件事是，我们将使用相同的 ε 贪婪策略在“步骤 6”中选择动作，并在“步骤 8”中更新相同的策略。 这种算法称为策略上算法。 从某种意义上讲，这是很好的，因为在我们观察和更新同一策略时，将更快地学习该策略。 它收敛非常快。 它也有一些缺点，即所学习的策略和用于决策的策略彼此紧密地联系在一起。 如果我们想要一个更具探索性的策略，以便在“步骤 6”中选择观察结果，并在“步骤 8”中更新更优化的策略，该怎么办？ 这样的算法被称为非策略算法。