2020-12-06 16:52:32

e81e580d · wizardforcel · be732f21 · e81e580d · e81e580d · e81e580d
10 changed file
--- a/new/ai-py/01.md
+++ b/new/ai-py/01.md
@@ -116,7 +116,7 @@
 | 贝叶斯 | 统计 | 概率推断 | 大卫·赫克曼犹太珍珠迈克尔·乔丹 |
 | 模拟器 | 心理学 | 内核机器 | 彼得·哈特弗拉基米尔·瓦普尼克道格拉斯·霍夫施塔特 |

-**象征主义者** –象征主义者使用归纳或反演的概念作为主要工具。 当使用归纳法时，逆推演不是从前提和结论开始，而是从一系列前提和结论开始，然后反向进行以填补缺失的部分。
+**象征主义者**：象征主义者使用归纳或反演的概念作为主要工具。 当使用归纳法时，逆推演不是从前提和结论开始，而是从一系列前提和结论开始，然后反向进行以填补缺失的部分。

 推论的一个例子：

@@ -126,13 +126,13 @@

 苏格拉底是人类+ ?? =苏格拉底是凡人（人类是凡人？）

-**连通论者** –连通论者使用大脑，或者至少是我们对大脑的粗略了解，作为主要工具-主要是神经网络。 神经网络是一种算法，可以在大脑之后粗略地建模，旨在识别模式。 他们可以识别向量中包含的数字模式。 为了使用它们，需要将所有输入（例如图像，声音，文本或时间序列）转换为这些数字矢量。 很难打开杂志或新闻网站，而不阅读“深度学习”示例。 深度学习是神经网络的一种特殊类型。
+**连通论者**：连通论者使用大脑，或者至少是我们对大脑的粗略了解，作为主要工具-主要是神经网络。 神经网络是一种算法，可以在大脑之后粗略地建模，旨在识别模式。 他们可以识别向量中包含的数字模式。 为了使用它们，需要将所有输入（例如图像，声音，文本或时间序列）转换为这些数字矢量。 很难打开杂志或新闻网站，而不阅读“深度学习”示例。 深度学习是神经网络的一种特殊类型。

-**进化论者** –进化论者专注于使用进化，自然选择，基因组和 DNA 突变的概念，并将其应用于数据处理。 进化算法将不断变异，进化并适应未知条件和过程。
+**进化论者**：进化论者专注于使用进化，自然选择，基因组和 DNA 突变的概念，并将其应用于数据处理。 进化算法将不断变异，进化并适应未知条件和过程。

-**贝叶斯** –贝叶斯将集中在使用概率推断来处理不确定性上。 视觉学习和垃圾邮件过滤是贝叶斯方法解决的一些问题。 通常，贝叶斯模型将采用假设并应用一种“先验”推理，假设某些结果更有可能出现。 然后，他们在看到更多数据时会更新假设。
+**贝叶斯**：贝叶斯将集中在使用概率推断来处理不确定性上。 视觉学习和垃圾邮件过滤是贝叶斯方法解决的一些问题。 通常，贝叶斯模型将采用假设并应用一种“先验”推理，假设某些结果更有可能出现。 然后，他们在看到更多数据时会更新假设。

-**模拟器** –模拟器着重于发现示例之间相似之处的技术。 最著名的模拟器模型是 *k 最近邻*算法。
+**模拟器**：模拟器着重于发现示例之间相似之处的技术。 最著名的模拟器模型是 *k 最近邻*算法。

 # 使用图灵测试定义情报


--- a/new/ai-py/04.md
+++ b/new/ai-py/04.md
@@ -273,7 +273,7 @@ g=sns.heatmap(data[top_corr_features].corr(),annot=True,cmap="RdYlGn")

 不管出于何种原因，缺少值都会影响模型的性能，并且在某些情况下，由于某些算法不会善待丢失值，因此可能会导致模型停止运行。 有多种技术可以处理缺失值。 它们包括：

-**删除缺少值的行** –此技术会降低模型的性能，因为它减少了模型必须训练的数据点的数量。
+**删除缺少值的行**：此技术会降低模型的性能，因为它减少了模型必须训练的数据点的数量。

 让我们看一个示例，该示例删除缺少 60％以上数据的列：

@@ -303,7 +303,7 @@ print(data)

 图 5：丢弃缺失值输出

-**数值插补** –插补是处理缺失值的另一种方法。 归因只是将缺失的值替换为另一个“有意义的”值。
+**数值插补**：插补是处理缺失值的另一种方法。 归因只是将缺失的值替换为另一个“有意义的”值。

 对于数字变量，这些是常见的替换：

@@ -330,7 +330,7 @@ print(data)

 图 5：丢弃缺失值输出

-**分类插补** –分类变量不包含数字，而是包含类别。 例如，红色，绿色和黄色。 或香蕉，苹果和橙子。 因此，平均值和均值不能与分类变量一起使用。 常用的技术是用出现最多的值替换所有丢失的值。
+**分类插补**：分类变量不包含数字，而是包含类别。 例如，红色，绿色和黄色。 或香蕉，苹果和橙子。 因此，平均值和均值不能与分类变量一起使用。 常用的技术是用出现最多的值替换所有丢失的值。

 在存在许多类别或类别均匀分布的情况下，使用诸如“其他”之类的名称可能有意义。 让我们看一下 Python 中的示例，该示例将所有缺少的值替换为最常出现的值（Python 中的`idxmax`返回整个功能中最常见的值）：


--- a/new/ai-py/09.md
+++ b/new/ai-py/09.md
@@ -42,10 +42,10 @@

 但是使用这三种构造，您就可以构建一些强大的系统。 一种流行的用法是构建“专家系统”。 背后的想法是采访在特定领域工作了很长时间的人类专家，并将访谈编入 AI 系统。 构建专家系统的领域示例如下：

-*   **医学** –著名的例子包括 MYCIN，INTERNIST-I 和 CADUCEUS
-*   **化学分析** – DENDRAL 是用于预测分子结构的分析系统
-*   **财务** –协助银行家贷款的咨询计划
-*   **调试程序** – SAINT，MATLAB 和 MACSYMA
+*   **医学**：著名的例子包括 MYCIN，INTERNIST-I 和 CADUCEUS
+*   **化学分析**：DENDRAL 是用于预测分子结构的分析系统
+*   **财务**：协助银行家贷款的咨询计划
+*   **调试程序**：SAINT，MATLAB 和 MACSYMA

 为了理解逻辑编程，有必要了解计算和演绎的概念。 为了计算某些东西，我们从一个表达式和一组规则开始。 这套规则基本上是程序。


--- a/new/ai-py/12.md
+++ b/new/ai-py/12.md
--- a/new/ai-py/16.md
+++ b/new/ai-py/16.md
@@ -91,8 +91,8 @@ Google Duplex 是一个很好的聊天机器人听起来很自然的有力例子

 可能其中一个正在试图出售某物等等。 这些“意图”可分为三大类：

-*   **扬声器正在尝试娱乐** –例如，有人告诉您开玩笑。
-*   **扬声器正在尝试通知** –有人问几点了，或者温度是多少？ 他们收到了答案。
+*   **扬声器正在尝试娱乐**：例如，有人告诉您开玩笑。
+*   **扬声器正在尝试通知**：有人问几点了，或者温度是多少？ 他们收到了答案。
 *   **演讲者试图说服**-议程是试图出售一些东西。

 对于大多数聊天机器人，它们的作用是执行命令和执行任务。 由于的原因，他们需要执行的第一个任务是确定调用他们的人的意图。 意图具有诸如上下文，训练阶段，动作和参数以及响应之类的元素。

--- a/new/ai-py/17.md
+++ b/new/ai-py/17.md
@@ -21,23 +21,23 @@

 在机器学习的世界中，我们遇到了许多类型的数据，例如图像，文本，视频和传感器读数。 不同类型的数据需要不同类型的建模技术。 顺序数据是指顺序很重要的数据。 顺序数据可以在许多“野外”情况下找到。 这里有些例子：

-**基因组序列数据** –这个也许是我们拥有的顺序数据的最好和最重要的例子。 基因出现的顺序是创造和维持生命的最基本水平。 基因组学序列包含使我们存活的信息。
+**基因组序列数据**：这个也许是我们拥有的顺序数据的最好和最重要的例子。 基因出现的顺序是创造和维持生命的最基本水平。 基因组学序列包含使我们存活的信息。

-**人类语言** –沟通时顺序非常重要。 如果我们开始更改本书中单词的顺序，不久之后，本书将变得完全不可理解！
+**人类语言**：沟通时顺序非常重要。 如果我们开始更改本书中单词的顺序，不久之后，本书将变得完全不可理解！

-**计算机语言** –在大多数计算机语言中，正确的输入顺序对于任何功能正常运行至关重要。 例如，在许多计算机语言中，符号“ > =“的意思是“大于或等于”，而在其他语言中，“ = >”的意思可能是赋值或产生语法错误。
+**计算机语言**：在大多数计算机语言中，正确的输入顺序对于任何功能正常运行至关重要。 例如，在许多计算机语言中，符号“ > =“的意思是“大于或等于”，而在其他语言中，“ = >”的意思可能是赋值或产生语法错误。

 时间序列数据是顺序数据的子分类。 时间序列数据的一些示例如下：

-**股票市场价格** –时间序列数据的圣杯是股票价格。 许多数据科学家将在其职业生涯中的某个时刻尝试使用其数据科学技能来尝试预测股市。 他们中的许多人将意识到这是一项艰巨的努力，并转向其他主题和问题。 库存预测困难的几个原因是：
+**股票市场价格**：时间序列数据的圣杯是股票价格。 许多数据科学家将在其职业生涯中的某个时刻尝试使用其数据科学技能来尝试预测股市。 他们中的许多人将意识到这是一项艰巨的努力，并转向其他主题和问题。 库存预测困难的几个原因是：

 *   在经济周期的不同时间，股票对经济状况的反应不同。
 *   影响股票价格的因素很多，这使它成为一个非常复杂的系统。
 *   股票中一些最剧烈的变动发生在市场交易时间之外，这使得实时处理这些信息变得困难。

-**应用程序日志** –根据定义，应用程序日志具有两个组成部分。 指示操作何时发生以及正在记录信息或错误的时间戳。
+**应用程序日志**：根据定义，应用程序日志具有两个组成部分。 指示操作何时发生以及正在记录信息或错误的时间戳。

-**IoT 活动** – IoT 设备中的活动以时间顺序方式发生，因此可以用作时间的数据。
+**IoT 活动**：IoT 设备中的活动以时间顺序方式发生，因此可以用作时间的数据。

 时间序列数据是从任何数据源（例如传感器，麦克风，股票市场等）获得的时间戳值。 时间序列数据具有许多重要特征，需要对其进行建模才能进行有效分析。


--- a/new/ai-py/18.md
+++ b/new/ai-py/18.md
@@ -27,13 +27,13 @@

 无人驾驶技术只是图像识别的一种应用，其应用几乎是无限的，仅受我们的想象力限制。 其他一些流行的用途是：

-**自动图像分类** –我们可以在 Google 相册中以及在将图像上传到 Facebook 以及查看 Facebook 如何向我们提供有关图像中人物的建议时看到的第一手示例。
+**自动图像分类**：我们可以在 Google 相册中以及在将图像上传到 Facebook 以及查看 Facebook 如何向我们提供有关图像中人物的建议时看到的第一手示例。

-**反向图像搜索** – Google 除其他功能外，还提供功能，您可以将图像用作输入，而不是使用关键字作为输入并获取图像，而 Google 可以猜测 图片包含。 [您可以在这里尝试](httpsimg.google.com/)。
+**反向图像搜索**：Google 除其他功能外，还提供功能，您可以将图像用作输入，而不是使用关键字作为输入并获取图像，而 Google 可以猜测 图片包含。 [您可以在这里尝试](httpsimg.google.com/)。

-**光学字符识别** –将 图像转换为文本非常依赖于图像识别。
+**光学字符识别**：将 图像转换为文本非常依赖于图像识别。

-**MRI 和超声解释** –在识别癌症和其他疾病方面，某些工具的性能优于人类。
+**MRI 和超声解释**：在识别癌症和其他疾病方面，某些工具的性能优于人类。

 考虑了图像识别的一些实际应用后，让我们进入将要使用的程序包以亲自了解它。


--- a/new/ai-py/20.md
+++ b/new/ai-py/20.md
@@ -25,11 +25,11 @@

 要使用它，只需继续刷新页面，它将每次生成一个新图像。 GAN 最初是作为无监督学习的生成模型而创建的。 GAN 还被证明可用于半监督学习，监督学习和强化学习。 AI 的巨头之一 Yann LeCun 称 GAN *是 ML* [1]中最近十年中最有趣的想法。 让我们考虑 GAN 的其他一些用例和应用程序。

-**使用 GAN 生成更多示例数据。** –数据是 ML 中的组成部分。 在某些情况下，不可能获得足够的数据来馈送到模型。 使用 GAN 生成更多输入数据是生成附加质量数据以馈入模型的好方法。
+**使用 GAN 生成更多示例数据。**：数据是 ML 中的组成部分。 在某些情况下，不可能获得足够的数据来馈送到模型。 使用 GAN 生成更多输入数据是生成附加质量数据以馈入模型的好方法。

-**安全性** – ML 为许多行业提供了提升。 无论市场部门如何，网络安全始终是企业高管的“首要任务”。 某些安全供应商使用 GAN 来处理网络攻击。 简而言之，GAN 会创建伪造的入侵，然后使用这些入侵来训练模型以识别这些威胁，从而使我们能够阻止这些攻击的真实版本。
+**安全性**：ML 为许多行业提供了提升。 无论市场部门如何，网络安全始终是企业高管的“首要任务”。 某些安全供应商使用 GAN 来处理网络攻击。 简而言之，GAN 会创建伪造的入侵，然后使用这些入侵来训练模型以识别这些威胁，从而使我们能够阻止这些攻击的真实版本。

-**数据操作** – GAN 可用于“伪样式传输”，即，在不完全修改示例的情况下修改示例的某些尺寸。
+**数据操作**：GAN 可用于“伪样式传输”，即，在不完全修改示例的情况下修改示例的某些尺寸。

 GAN 可用于语音应用程序。 给定语音，可以训练 GAN 来重现著名的声音。

@@ -41,7 +41,7 @@ GAN 可用于语音应用程序。 给定语音，可以训练 GAN 来重现著

 可以将这些技术移植到其他领域，例如自然语言处理，语音处理等。 例如，GAN 可能会略微调整句子，从而改变句子的含义。

-**隐私** –作为其安全策略的的一部分，许多公司希望将某些数据保密和保密。 显而易见的例子是国防和军事应用。 可以在加密数据时使用 GAN。 例如，生成一次性的密钥。
+**隐私**：作为其安全策略的的一部分，许多公司希望将某些数据保密和保密。 显而易见的例子是国防和军事应用。 可以在加密数据时使用 GAN。 例如，生成一次性的密钥。

 为了更好地利用 GAN，谷歌于 2016 年开始进行研究。 基本思想是让一个网络创建一个密钥，另一个网络试图破解它。

@@ -97,17 +97,17 @@ CNN 可以通过应用相关滤镜来捕获图像中的空间和时间相关性

 CNN 通常使用以下类型的层：

-**输入层** –此层直接获取原始图像数据。
+**输入层**：此层直接获取原始图像数据。

-**卷积层** –此层计算神经元与输入中各种贴片之间的卷积。 如果您需要快速了解图像卷积，[可以查看以下链接](http://web.pdx.edu/~jduh/courses/Archive/geog481w07/Students/Ludwig_ImageConvolution.pdf)。
+**卷积层**：此层计算神经元与输入中各种贴片之间的卷积。 如果您需要快速了解图像卷积，[可以查看以下链接](http://web.pdx.edu/~jduh/courses/Archive/geog481w07/Students/Ludwig_ImageConvolution.pdf)。

 卷积层基本上计算权重和前一层输出中的一个小补丁之间的点积。

-**整流线性单元层** –此层将激活函数应用于上一层的输出。 此函数通常类似于 *max（0，x）*。 需要这一层来为网络增加非线性，以便可以很好地推广到任何类型的功能。
+**整流线性单元层**：此层将激活函数应用于上一层的输出。 此函数通常类似于 *max（0，x）*。 需要这一层来为网络增加非线性，以便可以很好地推广到任何类型的功能。

-**合并层** –此层对上一层的输出进行采样，从而得到具有较小尺寸的结构。 池化有助于我们在网络发展过程中仅保留重要部分。 最大池化通常在池化层中使用，我们在给定的 *KxK* 窗口中选择最大值。
+**合并层**：此层对上一层的输出进行采样，从而得到具有较小尺寸的结构。 池化有助于我们在网络发展过程中仅保留重要部分。 最大池化通常在池化层中使用，我们在给定的 *KxK* 窗口中选择最大值。

-**全连接层** –此层计算最后一层的输出分数。 结果输出的大小为 *1x1xL* ，其中`L`是 t 下雨数据集中的类数。
+**全连接层**：此层计算最后一层的输出分数。 结果输出的大小为 *1x1xL* ，其中`L`是 t 下雨数据集中的类数。

 ![](img/B15441_20_04.png)


--- a/new/ai-py/22.md
+++ b/new/ai-py/22.md
@@ -39,17 +39,17 @@ RL 是指学习操作方法并将情况映射到某些动作以最大化回报

 让我们看看 RL 在现实世界中出现的位置。 这将帮助我们了解它的工作原理以及使用此可以构建哪些可能的应用程序，除非：

-**游戏性** –让我们考虑一下棋类游戏，例如 Go 或 Chess。 为了确定最佳动作，玩家需要考虑各种因素。 可能性的数量如此之大，以至于无法进行暴力搜索。 如果我们要使用传统技术制造一台可以玩这种游戏的机器，则需要指定许多规则来涵盖所有这些可能性。 RL 完全绕过了这个问题。 我们不需要手动指定任何逻辑规则。 学习代理仅通过示例学习并与自己玩游戏。
+**游戏性**：让我们考虑一下棋类游戏，例如 Go 或 Chess。 为了确定最佳动作，玩家需要考虑各种因素。 可能性的数量如此之大，以至于无法进行暴力搜索。 如果我们要使用传统技术制造一台可以玩这种游戏的机器，则需要指定许多规则来涵盖所有这些可能性。 RL 完全绕过了这个问题。 我们不需要手动指定任何逻辑规则。 学习代理仅通过示例学习并与自己玩游戏。

 有关此主题的更详尽讨论，请参阅第 2 章，“人工智能基本用例”中的“游戏”部分。

-**机器人技术** –让我们考虑一个机器人的工作，该机器人的工作是探索新建筑物。 它应确保它有足够的功率返回基站。 该机器人必须通过考虑所收集的信息量与安全返回基站的能力之间的权衡来决定是否应该做出决定。
+**机器人技术**：让我们考虑一个机器人的工作，该机器人的工作是探索新建筑物。 它应确保它有足够的功率返回基站。 该机器人必须通过考虑所收集的信息量与安全返回基站的能力之间的权衡来决定是否应该做出决定。

 有关此主题的更多信息，请跳至第 2 章，“人工智能基本用例”中的“装运和仓库管理”部分。

-**工业控制器** –考虑调度电梯的情况。 一个好的调度程序将花费最少的电量，并为最多的人员服务。 对于此类问题，RL 代理可以学习如何在模拟环境中执行此操作。 然后，他们可以利用这些知识来制定最佳计划。
+**工业控制器**：考虑调度电梯的情况。 一个好的调度程序将花费最少的电量，并为最多的人员服务。 对于此类问题，RL 代理可以学习如何在模拟环境中执行此操作。 然后，他们可以利用这些知识来制定最佳计划。

-**婴儿** –机器在使用 RL 方面没有垄断权； 刚开始的几个月里，新生儿经历了几乎相同的过程。 他们通过反复尝试来学习，直到学会平衡为止。 有趣的是，婴儿发现了走路（或跑步！）是最有效的方式之后，发现了不同的运动方法。
+**婴儿**：机器在使用 RL 方面没有垄断权； 刚开始的几个月里，新生儿经历了几乎相同的过程。 他们通过反复尝试来学习，直到学会平衡为止。 有趣的是，婴儿发现了走路（或跑步！）是最有效的方式之后，发现了不同的运动方法。

 如果仔细观察这些示例，您将看到一些共同的特征。 所有这些都涉及与环境的交互。 即使环境不确定，学习代理（无论是机器，婴儿还是其他设备）也旨在实现某个目标。 代理的动作将改变该环境的未来状态。 随着代理继续与环境交互，这会在以后的时间影响可用的机会。


--- a/new/ai-py/23.md
+++ b/new/ai-py/23.md
@@ -335,9 +335,9 @@ Impala 可以轻松与 Hadoop 集成，并支持 MapReduce，Apache Hive 和 Apa

 ## NoSQL 数据库的类型

-**文档数据库** –文档数据库用于存储半结构化数据。 他们使用与复杂的数据结构（称为文档）配对的密钥。 文档可以包含许多类型的数据结构，例如原始值（如整数，布尔值和字符串），不同的键值对或键数组对，甚至是嵌套文档。
+**文档数据库**：文档数据库用于存储半结构化数据。 他们使用与复杂的数据结构（称为文档）配对的密钥。 文档可以包含许多类型的数据结构，例如原始值（如整数，布尔值和字符串），不同的键值对或键数组对，甚至是嵌套文档。

-**图形数据库** –图形数据库将图形结构用于具有节点，边和属性的语义查询，以表示和存储数据。 图形数据库的重点是数据中的关系。 一些示例使用图数据库的案例：
+**图形数据库**：图形数据库将图形结构用于具有节点，边和属性的语义查询，以表示和存储数据。 图形数据库的重点是数据中的关系。 一些示例使用图数据库的案例：

 *   Facebook 中包含的信息以及网络中朋友之间的关系。
 *   交易，客户和银行帐户。 即，使用*帐户 X* 的*客户 A* 向具有*帐户 Y* 的*客户 B* 汇款。
@@ -351,7 +351,7 @@ Impala 可以轻松与 Hadoop 集成，并支持 MapReduce，Apache Hive 和 Apa
 *   亚马逊海王星
 *   蔚蓝宇宙

-**键值数据库** –键值数据库是 NoSQL 数据库的最简单类型。 使用*属性*名称（或*键*）及其值存储数据库中的每个单项。 键值存储的一些示例是：
+**键值数据库**：键值数据库是 NoSQL 数据库的最简单类型。 使用*属性*名称（或*键*）及其值存储数据库中的每个单项。 键值存储的一些示例是：

 *   涟漪
 *   岩石数据库
@@ -360,7 +360,7 @@ Impala 可以轻松与 Hadoop 集成，并支持 MapReduce，Apache Hive 和 Apa
 *   ArangoDB
 *   雷迪斯

-**宽列数据库** –宽列数据库已针对大型数据集的查询进行了优化，并将数据列而不是行存储在一起。 这些类型的数据库的示例是 Cassandra 和 HBase。
+**宽列数据库**：宽列数据库已针对大型数据集的查询进行了优化，并将数据列而不是行存储在一起。 这些类型的数据库的示例是 Cassandra 和 HBase。

 现在，让我们进一步详细介绍 NoSQL 数据库的一些最流行的实现。