# 前言 **强化学习**( **RL** )使您可以在业务环境中开发智能,快速且自学的系统。 这是培训您的学习型代理商并解决人工智能中各种问题的有效方法,从游戏,自动驾驶汽车和机器人到企业应用程序,其范围从数据中心节能(冷却数据中心)到智能仓储解决方案。 本书涵盖了通过将深度神经网络体系结构与强化学习相结合而在深度强化学习中取得的主要进步和成功。 该书还向读者介绍了强化学习的概念,它的优点以及为什么它如此受欢迎。 它讨论了 MDP,蒙特卡洛树搜索,策略和值迭代,时间差异学习(例如 Q 学习)和 SARSA。 您将使用 TensorFlow 和 OpenAI Gym 来构建简单的神经网络模型,以从自己的行为中学习。 您还将看到强化学习算法如何在游戏,图像处理和 NLP 中发挥作用。 到本书结尾,您将对 TensorFlow 和 OpenAI Gym 的功能有一个深刻的了解,即什么是强化学习以及如何将您的知识付诸实践。 # 这本书是给谁的 如果您想以最实际的方式开始使用 TensorFlow 进行强化学习,那么本书将是有用的资源。 本书假定您具有传统机器学习和线性代数的先验知识,并且对 TensorFlow 框架有所了解。 不需要以前的强化学习和深度神经网络经验。 # 充分利用这本书 以下是充分利用本书的要求: * Python 和 TensorFlow * 线性代数是神经网络的前提 * 安装包:Python,TensorFlow 和 OpenAI 健身房(在[第 1 章](../Text/01.html),*深度学习–架构和框架*和[第 2 章](../Text/02.html)和*中显示) 使用 OpenAI Gym* 的特工 # 下载示例代码文件 您可以从 [www.packtpub.com](http://www.packtpub.com) 的帐户中下载本书的示例代码文件。 如果您在其他地方购买了此书,则可以访问 [www.packtpub.com/support](http://www.packtpub.com/support) 并注册以将文件直接通过电子邮件发送给您。 您可以按照以下步骤下载代码文件: 1. 登录或登录 [www.packtpub.com](http://www.packtpub.com/support) 。 2. 选择支持选项卡。 3. 单击代码下载和勘误。 4. 在搜索框中输入书籍的名称,然后按照屏幕上的说明进行操作。 下载文件后,请确保使用以下最新版本解压缩或解压缩文件夹: * Windows 的 WinRAR / 7-Zip * Mac 版 Zipeg / iZip / UnRarX * 适用于 Linux 的 7-Zip / PeaZip 本书的代码包也托管在 GitHub 的 [https://github.com/PacktPublishing/Reinforcement-Learning-with-TensorFlow](https://github.com/PacktPublishing/Reinforcement-Learning-with-TensorFlow) 上。 如果代码有更新,它将在现有的 GitHub 存储库中进行更新。 我们还从 **[https://github.com/PacktPublishing/](https://github.com/PacktPublishing/)** 提供了丰富的书籍和视频目录中的其他代码包。 去看一下! # 下载彩色图像 我们还提供了 PDF 文件,其中包含本书中使用的屏幕截图/图表的彩色图像。 您可以在此处下载: [http://www.packtpub.com/sites/default/files/downloads/ReinforcementLearningwithTensorFlow_ColorImages.pdf](http://www.packtpub.com/sites/default/files/downloads/ReinforcementLearningwithTensorFlow_ColorImages.pdf) 。 # 使用约定 本书中使用了许多文本约定。 `CodeInText`:指示文本,数据库表名称,文件夹名称,文件名,文件扩展名,路径名,虚拟 URL,用户输入和 Twitter 句柄中的代码字。 这是一个示例:“ `sigmoid(x)`和`relu(x)`分别指执行 S 型和 ReLU 激活计算的功能。” 代码块设置如下: ```py def discretization(env, obs): env_low = env.observation_space.low env_high = env.observation_space.high ``` 任何命令行输入或输出的编写方式如下: ```py Episode 1 completed with total reward 8433.30289388 in 26839 steps Episode 2 completed with total reward 3072.93369963 in 8811 steps Episode 3 completed with total reward 1230.81734028 in 4395 steps Episode 4 completed with total reward 2182.31111239 in 6629 steps ``` **粗体**:表示新术语,重要单词或您在屏幕上看到的单词。 例如,菜单或对话框中的单词会出现在这样的文本中。 这是一个示例:“从管理面板中选择系统信息。” 警告或重要提示如下所示。 提示和技巧如下所示。