test

b0f7d7b0 · xiaowei_xing · 15ae0798 · b0f7d7b0
隐藏空白更改
内联并排

Showing with 1 addition and 1 deletion

docs/11&12.md docs/11&12.md +1 -1

未找到文件。
--- a/docs/11&12.md
+++ b/docs/11&12.md
@@ -4,7 +4,7 @@

 ## 1. 介绍（Introduction）

-我们之前讨论过强化学习算法的设计，特别地，除了渐近收敛之外，我们还希望获得良好的性能。在教育、医疗或机器人等许多实际应用中，渐近收敛速度并不是比较强化学习算法的有效指标。为实现良好的现实世界中的表现，我们希望能够快速收敛到好的策略，这有赖于良好的策略探索。
+我们之前讨论过强化学习算法的设计，特别地，除了渐近收敛之外，我们还希望获得良好的性能。在教育、医疗或机器人等许多实际应用中，渐近收敛速度并不是比较强化学习算法的有效指标。为实现良好的现实世界中的表现，我们希望能够快速收敛到好的策略，这有赖于良好的、有策略性的探索。

 在线决策涉及到探索（exploration）与利用（exploitation）之间的基本权衡。利用（通过最大化未来收益来）制定最佳的可能的策略，而探索则采取次优动作来收集信息。虽然次优动作必然会导致近期的奖励减少，但它可能使得我们学习更好的策略，从长远来看能够改进策略。