2021-01-17 21:42:38

7a801d30 · wizardforcel · 811db9bb · 7a801d30 · 7a801d30
隐藏空白更改
内联并排

Showing with 19 addition and 19 deletion

new/rl-tf/11.md new/rl-tf/11.md +2 -2

new/rl-tf/12.md new/rl-tf/12.md +17 -17

未找到文件。
--- a/new/rl-tf/11.md
+++ b/new/rl-tf/11.md
@@ -33,7 +33,7 @@

 # 强化学习的演变

-在本书中，我们涵盖了从基础到高级的强化学习领域中的大多数算法。 因此，这些章节是理解机器人领域中不同算法所面临的应用和挑战的前提。 早期强化学习算法通过首先获取状态动作值，然后从中得出策略来处理获取最佳策略的问题。 然后，策略迭代方法出现了，直接用于输出优化的策略。 勘探开发技术有助于完善现有策略，探索新措施并更新现有策略。 强化学习方法，例如 MDP（在第 3 章，*马尔可夫决策过程*中），其中需要采用过渡模型的值迭代方法称为基于**模型的学习器**。 另一方面，诸如 Q 学习（在第 5 章， *Q-Learning 和深度 Q 网络*中）的算法不需要这种过渡模型，因此也不需要任何预定义的策略。 ，他们被称为**模型免费土地脱离策略学习器**。
+在本书中，我们涵盖了从基础到高级的强化学习领域中的大多数算法。 因此，这些章节是理解机器人领域中不同算法所面临的应用和挑战的前提。 早期强化学习算法通过首先获取状态动作值，然后从中得出策略来处理获取最佳策略的问题。 然后，策略迭代方法出现了，直接用于输出优化的策略。 勘探开发技术有助于完善现有策略，探索新措施并更新现有策略。 强化学习方法，例如 MDP（在第 3 章，“马尔可夫决策过程”中），其中需要采用过渡模型的值迭代方法称为**基于模型的学习器**。 另一方面，诸如 Q 学习（在第 5 章，“Q 学习和深度 Q 网络”中）的算法不需要这种过渡模型，因此也不需要任何预定义的策略。 他们被称为**无模型的脱离策略学习器**。

 在深度强化学习领域，行动价值函数逼近器和策略函数逼近器在制定最先进的学习算法集方面发挥着关键作用。 策略搜索算法（例如策略梯度）旨在通过最大化期望的奖励总和来找到最佳策略，而使用行动值函数近似器（例如深度 Q 网络）的算法旨在通过最大化期望的总和来找到给定状态的行动值 奖励。 但是，在处理由高维和连续状态动作空间构成的环境时，性能上的差异在于，这最能描述机器人在其中运行的真实环境。 在这种情况下，策略搜索算法的性能会更好，因为它们在连续状态操作空间域中可以更好地工作：

@@ -64,7 +64,7 @@
 让我们举个例子：

 *   对于每个维度，状态空间都离散为 10 个不同的状态
-*   因此，三维状态空间将具有 *10x10x10 = 1000* 个状态
+*   因此，三维状态空间将具有`10x10x10 = 1000`个状态
 *   因此，随着维数的增加，状态将增加 10 倍

 因此，随着尺寸的增加，评估变得困难。 函数近似器（例如神经网络）可以有效地解决此问题。 机器人系统的问题是由于拟人（类人）机器人导致的高维状态和动作。 经典的强化学习方法考虑具有离散状态动作空间的网格世界环境。 在网格世界环境中，导航任务将涉及许多离散的动作，包括移动，加速，加速，下降，启动，停止以及更多高精度方向。

--- a/new/rl-tf/12.md
+++ b/new/rl-tf/12.md
@@ -12,7 +12,7 @@

 广告是一种传达信息的方式。 计算广告的核心任务是在给定上下文中的给定用户和广告之间找到最佳匹配，其中适用以下因素：

-*   **上下文/拍卖人**：用户访问过且被认为适合广告的平台，例如：
+*   **上下文/出价人**：用户访问过且被认为适合广告的平台，例如：
    *   使用搜索引擎的用户。 因此，在这种情况下赞助广告是一个很好的计划。
    *   用户阅读网页。 因此，展示广告适合这种情况。
    *   观看任何视频（电影，剪辑，短视频等）的用户。 因此，短视频广告是好的。
@@ -33,9 +33,9 @@

 *   **CPM**：每千次展示费用
    *   在这种类型的模型中，广告商为每千次展示支付固定金额，其中的展示次数可以是点击次数，观看次数等
-*   **每次点击费用**：每次点击费用，**每次点击付费**（**PPC**）
+*   **CPC**：每次点击费用，**每次点击付费**（**PPC**）
    *   在这种类型的在线广告模型中，广告商向用户支付平台所有者对用户在广告链接上进行的每次点击操作的费用
-*   **每次转化费用**：每次操作费用/每次获取费用/ **每次获取费用**（**PPA**）/每次转化费用
+*   **CPA**：每次操作费用/每次获取费用/**每次获取费用**（**PPA**）/每次转化费用
    *   在这种类型的模型中，平台所有者（例如，运行广告的发布者）承担所有风险，而广告客户仅为已获得全部用户（换句话说，他们已经完成了可以 完成，注册订阅或进行购买交易

 # 赞助搜索广告
@@ -48,9 +48,9 @@

 # Adwords

-在所有广告客户将其每次点击费用的出价针对某些搜索查询进行出价后，平台会接收到数据，该数据包括不同广告客户的出价集以及每个广告客户的总预算，以及**点击的历史数据， 每个搜索查询的点击率**（**CTR**）。
+在所有广告客户将其每次点击费用的出价针对某些搜索查询进行出价后，平台会接收到数据，该数据包括不同广告客户的出价集以及每个广告客户的总预算，以及每个搜索查询的**点击率**（**CTR**）的历史数据。

-主要目的是响应每个查询选择一组广告，以使搜索引擎（即拍卖商）获得的收益最大化。 就像拍卖师的收入最大化一样，广告商的利润最大化也很重要，并且包括各种出价策略。
+主要目的是响应每个查询选择一组广告，以使搜索引擎（即出价商）获得的收益最大化。 就像出价师的收入最大化一样，广告商的利润最大化也很重要，并且包括各种出价策略。

 # 广告商的竞标策略

@@ -65,13 +65,13 @@
    *   这些代理商将使用历史市场数据并直接与市场参与者进行交互，并根据此数据对自己的行为进行建模，从而帮助制定不同的决策策略
 *   使用强化学习的机器学习方法

-    *   在第 3 章和 *Markov 决策过程*中可以看到**马尔可夫决策过程**（**MDP**）的框架，在该框架中，我们最大化了每个模型的预期效用 通过最大化预期奖励总和，最优化进入目标状态的路径的状态
+    *   在第 3 章“Markov 决策过程”中可以看到**马尔可夫决策过程**（**MDP**）的框架，在该框架中，我们最大化了每个模型的预期效用 通过最大化预期奖励总和，最优化进入目标状态的路径的状态

-# 在展示广告中通过强化学习进行实时出价
+# 使用强化学习的展示广告中的实时出价

-在线展示主要通过实时出价来提供，其中，展示广告的每次展示都是在通过用户访问产生的同时实时拍卖的。 自动实时地出价对于广告商最大限度地提高利润至关重要。 因此，需要设计一种学习算法，该算法可以基于历史数据实时设计出最佳的学习策略，以便根据即时和未来的回报跨不同的印象进行预算的动态分配。 在这里，我们将讨论由 Cai 等人在*展示广告中的强化学习的实时出价*中发布的强化学习框架来制定出价决策过程。 等 2017。
+在线展示主要通过实时出价来提供，其中，展示广告的每次展示都是在通过用户访问产生的同时实时出价的。 自动实时地出价对于广告商最大限度地提高利润至关重要。 因此，需要设计一种学习算法，该算法可以基于历史数据实时设计出最佳的学习策略，以便根据即时和未来的回报跨不同的印象进行预算的动态分配。 在这里，我们将讨论由 Cai 等人在《使用强化学习的展示广告中的实时出价》中发布的强化学习框架来制定出价决策过程。 

-在蔡等人的这项研究中。 此外，我们考虑了在展示广告的情况下进行机器竞标，因为实时竞标是一项极富挑战性的任务，因为在在线展示广告的情况下，广告印象的竞标会在广告的展示机会生成后立即开始 用户访问。 在考虑了剩余预算，未来相关广告展示的可用性，拍卖结果和收到的反馈之后，为每次广告拍卖计算最佳出价，这些都可以帮助广告客户优化出价策略，从而更好地进行分配。
+在蔡等人的这项研究中。 此外，我们考虑了在展示广告的情况下进行机器竞标，因为实时竞标是一项极富挑战性的任务，因为在在线展示广告的情况下，广告印象的竞标会在广告的展示机会生成后立即开始 用户访问。 在考虑了剩余预算，未来相关广告展示的可用性，出价结果和收到的反馈之后，为每次广告出价计算最佳出价，这些都可以帮助广告客户优化出价策略，从而更好地进行分配。

 在这里，研究人员试图获得最佳出价功能，该功能可以最大化广告活动的关键绩效指标，这些指标主要是总点击次数或总收入。 但是，这种方法主要在静态出价的情况下起作用，在这种情况下，出价发生在广告商为每个展示支付固定的平均费率的情况下。 在实时出价的情况下，它在展示级别是动态的，这意味着在一个平台中，根据生成的展示的需求，出价值会有所不同。

@@ -79,24 +79,24 @@

 *   学习代理将从广告商的角度学习
 *   整个广告市场和所有互联网用户形成环境
-*   状态空间包含拍卖信息和实时活动参数
+*   状态空间包含出价信息和实时活动参数
 *   动作是要设定的买入价

-因此，在每个步骤中，代表广告商出价者的代理都会观察到由当前广告系列参数（例如预算和剩余时间）以及针对该特定广告印象的出价请求组成的状态。 然后，它发布一个动作； 例如，确定出价，中奖结果和用户反馈将一起作为对所采取措施的奖励，并将用于加强模型。 由于在现实世界中拍卖量很大，因此 MDP 框架已与基于 Q 网络的方法一起使用，该方法使用神经网络作为状态作用值函数逼近器。 招标的基本强化学习框架如下所示：
+因此，在每个步骤中，代表广告商出价者的代理都会观察到由当前广告系列参数（例如预算和剩余时间）以及针对该特定广告印象的出价请求组成的状态。 然后，它发布一个动作； 例如，确定出价，中奖结果和用户反馈将一起作为对所采取措施的奖励，并将用于加强模型。 由于在现实世界中出价量很大，因此 MDP 框架已与基于 Q 网络的方法一起使用，该方法使用神经网络作为状态作用值函数逼近器。 招标的基本强化学习框架如下所示：

 ![](img/6807396c-6fb5-4a47-8cd9-2ba802d62c72.png)

-最初，预算 b 是提供给代理的，此处的目标是在随后的拍卖 t 中获得尽可能多的点击。 以下是代理考虑的重要信息：
+最初，预算 b 是提供给代理的，此处的目标是在随后的出价 t 中获得尽可能多的点击。 以下是代理考虑的重要信息：

-*   其余拍卖，即剩余拍卖编号 *t∈{0，···，T}*
-*   初始分配预算中剩余的剩余金额，即未用预算 *b∈{0，...，B}*
+*   其余出价，即剩余出价编号`t ∈ {0, ···, T}`
+*   初始分配预算中剩余的剩余金额，即未用预算`b ∈ {0, ..., B}`
 *   特征向量 x，代表出价请求

-在每个情节中，每次拍卖都会按顺序发送给代理商，代理商针对每个代理商根据当前信息`t`，`b`和[`x`。 因此，代理基于拍卖的剩余时间，初始分配预算中剩余的剩余量以及提出的投标请求的所有关键信息来决定适当的动作。
+在每个情节中，每次出价都会按顺序发送给代理商，代理商针对每个代理商根据当前信息`t`，`b`和`x`。 因此，代理基于出价的剩余时间，初始分配预算中剩余的剩余量以及提出的投标请求的所有关键信息来决定适当的动作。

-如上图所示，代理维护剩余的拍卖`t`和剩余的预算 b。 在每个时间步，代理都收到一个竞标请求以及拍卖 *x∈X* （特征向量空间），并且它必须确定竞标价格 a。
+如上图所示，代理维护剩余的出价`t`和剩余的预算 b。 在每个时间步，代理都收到一个竞标请求以及出价`x ∈ X`（特征向量空间），并且它必须确定竞标价格 a。

-给定特征向量`x`的市场价格概率分布函数为 *m（δ，x）*，其中**δ**是市场价格， *m [* 是其概率。 因此，如果代理商以 *a≥δ*的价格出价，则它将赢得竞标并支付**δ**，剩余预算将变为 *b-δ*。 万一败诉，代理商从拍卖中得不到任何好处。 在此，如果将赢得拍卖视为预期奖励，则将**预测 CTR**（**pCTR**）表示为*θ（x）*。 在每次拍卖之后，剩余的拍卖数量减少 1。当 *t = 0* 时，也就是说，没有剩余的拍卖，则情节结束。 随着当前情节的结束，剩余的拍卖编号和预算都将分别重置为`T`和`B`。
+给定特征向量`x`的市场价格概率分布函数为`m(δ, x)`，其中`δ`是市场价格， `m`是其概率。 因此，如果代理商以`a ≥ δ`的价格出价，则它将赢得竞标并支付`δ`，剩余预算将变为`b-δ`。 万一失败，代理商从竞标中得不到任何东西。 在此，如果将赢得出价视为预期奖励，则将**预测 CTR**（**pCTR**）表示为`θ(x)`。 在每次出价之后，剩余的出价数量减少 1。当`t = 0`时，也就是说，没有剩余的出价，则情节结束。 随着当前情节的结束，剩余的出价编号和预算都将分别重置为`T`和`B`。

 以下是前面的增强型学习框架要投标的实现的伪代码：