2021-02-22 22:01:04

96bdc9a7 · wizardforcel · c9c2c66a · 96bdc9a7 · 96bdc9a7 · 96bdc9a7
6 changed file
--- a/new/master-py-ds/07.md
+++ b/new/master-py-ds/07.md
@@ -2,7 +2,7 @@

 Logistic 回归是一种回归分析，可帮助您根据某些给定参数估算事件发生的可能性。 它用作具有二进制结果的分类技术。 使用逻辑函数，根据解释性变量（预测变量）对描述单个试验可能结果的概率进行建模。

-在第 5 章和*发现机器学习*中，已经向您介绍了 *Logisitc 回归*。 在本章中，您将学习：
+在第 5 章“发现机器学习”中，已经向您介绍了 *Logisitc 回归*。 在本章中，您将学习：

 *   使用 statsmodels 建立逻辑回归模型
 *   使用 SciKit 建立逻辑回归模型
@@ -10,21 +10,21 @@ Logistic 回归是一种回归分析，可帮助您根据某些给定参数估

 # Logistic 回归

-我们将使用 Titanic 数据集，该数据集在第 3 章和*在干草堆中查找针*中使用，以帮助我们建立逻辑回归模型。 由于我们已经探索了数据，因此我们将不进行任何探索性数据分析，因为我们已经有了该数据的上下文。
+我们将使用 Titanic 数据集，该数据集在第 3 章“在干草堆中查找针”中使用，以帮助我们建立逻辑回归模型。 由于我们已经探索了数据，因此我们将不进行任何探索性数据分析，因为我们已经有了该数据的上下文。

 这是泰坦尼克号数据集的字段描述的回顾：

-*   **生存**：这是指乘客的生存（`0` =否，`1` =是）
-*   **Pclass**：这指的是乘客等级（`1` = 1st，`2` = 2nd，`3` = 3rd）
-*   **名称**：这是指乘客的姓名
-*   **性别**：这是指乘客的性别
-*   **年龄**：这是指乘客的年龄
-*   **兄弟姐妹**：指船上同级/配偶的数量
-*   **Parch**：这是指船上父母/子女的数量
-*   **票证**：这是票证编号
-*   **票价**：这是指旅客票价
-*   **客舱**：这是指客舱
-*   **登上**：此是指登船港口（C =瑟堡，Q =皇后镇，S =南安普敦）
+*   `Survival`：这是指乘客的生存（`0` =否，`1` =是）
+*   `Pclass`：这指的是乘客等级（`1` = 1st，`2` = 2nd，`3` = 3rd）
+*   `Name`：这是指乘客的姓名
+*   `Sex`：这是指乘客的性别
+*   `Age`：这是指乘客的年龄
+*   `Sibsp`：指船上同级/配偶的数量
+*   `Parch`：这是指船上父母/子女的数量
+*   `Ticket`：这是票证编号
+*   `Fare`：这是指旅客票价
+*   `Cabin`：这是指客舱
+*   `Embarked`：此是指登船港口（C =瑟堡，Q =皇后镇，S =南安普敦）

 ## 数据准备

@@ -137,7 +137,7 @@ Logistic 回归是一种回归分析，可帮助您根据某些给定参数估

 ![Model evaluation](img/B03450_07_04.jpg)

-从前面的图中可以看出，在`0`和`1`的概率附近密度较高，这是一个好兆头，表明该模型能够根据给定的数据预测某些模式。 这也表明密度是最高的，接近 0，这意味着很多人无法生存。 这证明了我们在第 3 章和*在干草堆中寻找针头*中执行的分析。
+从前面的图中可以看出，在`0`和`1`的概率附近密度较高，这是一个好兆头，表明该模型能够根据给定的数据预测某些模式。 这也表明密度是最高的，接近 0，这意味着很多人无法生存。 这证明了我们在第 3 章和“在干草堆中寻找针”中执行的分析。

 让我们看看基于男性的预测分布：

@@ -154,7 +154,7 @@ Logistic 回归是一种回归分析，可帮助您根据某些给定参数估

 ![Model evaluation](img/B03450_07_05.jpg)

-我们可以看到，模型预测表明，如果乘客是男性，那么与女性相比，生存机会要低。 我们的分析在第 3 章和*在干草堆中寻找针头*中也显示了这一点，其中发现女性的成活率更高。
+我们可以看到，模型预测表明，如果乘客是男性，那么与女性相比，生存机会要低。 我们的分析在第 3 章和“在干草堆中寻找针”中也显示了这一点，其中发现女性的成活率更高。

 现在，让我们看一下基于下层乘客的预测分布：

@@ -234,9 +234,9 @@ Logistic 回归是一种回归分析，可帮助您根据某些给定参数估
 让我们了解精确度和召回率的含义。

 *   **精度**：精度告诉您，在 0 类或 1 类的所有预测中，有多少个已正确预测。 因此，在上述情况下，非幸存者的预测的 76% 是正确的，而幸存者的预测的 100% 是正确的。
-*   **调用**：调用告诉您，在实际实例中，有多少个已正确预测。 因此，在上述情况下，所有未幸存的人都可以 100% 的准确度正确预测，但是在所有幸存的人中，只有 53% 的人被正确预测了。
+*   **召回**：召回告诉您，在实际实例中，有多少个已正确预测。 因此，在上述情况下，所有未幸存的人都可以 100% 的准确度正确预测，但是在所有幸存的人中，只有 53% 的人被正确预测了。

-让我们绘制**接收器工作特性**（**ROC**）曲线，其解释如下：
+让我们绘制**受试者工作特性**（**ROC**）曲线，其解释如下：

 ```py
 >>> # Compute ROC curve and area the curve

--- a/new/master-py-ds/08.md
+++ b/new/master-py-ds/08.md
@@ -162,7 +162,7 @@ movie_user_preferences['William']['Gone Girl']

 ## 皮尔森相关评分

-我们已经在第 2 章，*推断统计*中研究了皮尔逊相关性。 欧几里得距离是用户彼此分开的距离，而 Pearson 相关性考虑了两个人之间的关联。 我们将使用 Pearson 相关性来计算两个用户之间的相似度得分。
+我们已经在第 2 章，“推断统计”中研究了皮尔逊相关性。 欧几里得距离是用户彼此分开的距离，而 Pearson 相关性考虑了两个人之间的关联。 我们将使用 Pearson 相关性来计算两个用户之间的相似度得分。

 让我们看看`Sam`和`Toby`如何相互关联：


--- a/new/master-py-ds/09.md
+++ b/new/master-py-ds/09.md
@@ -307,7 +307,7 @@ dtype: float64

 # 决策树

-为了了解基于决策树的模型，让我们尝试想象 Google 希望招募人员从事软件开发工作。 根据他们已有的员工和先前拒绝的员工，我们可以确定申请人是否来自常春藤大学，以及**平均绩点**（**GPA** 是多少） ）。
+为了了解基于决策树的模型，让我们尝试想象 Google 希望招募人员从事软件开发工作。 根据他们已有的员工和先前拒绝的员工，我们可以确定申请人是否来自常春藤大学，以及**平均绩点**（**GPA**）是多少。

 决策树会将申请人分为常春藤联盟和非常春藤联盟。 然后将常春藤盟军分为高 GPA 和低 GPA，这样高 GPA 的人很可能被高标签，而 GPA 低的人则可能被招募。


--- a/new/master-py-ds/10.md
+++ b/new/master-py-ds/10.md
@@ -15,7 +15,7 @@ k 均值聚类算法通过计算特征的平均值（例如我们用于聚类的

 我们如何选择`K`？ 如果我们对所要寻找的东西有所了解，或者期望或想要多少个集群，则可以在启动引擎并进行算法计算之前将`K`设置为该数字。

-如果我们不知道有多少个集群，那么我们的探索将花费更长的时间并涉及一些反复试验，例如，当我们尝试 *K = 3* ，`4`时， 和`5`。
+如果我们不知道有多少个集群，那么我们的探索将花费更长的时间并涉及一些反复试验，例如，当我们尝试`K = 3`，`4`时， 和`5`。

 k 均值算法是迭代的。 首先从数据中随机选择`K`点，然后将它们用作聚类中心。 然后，在每个迭代步骤中，此算法都会确定哪些行值最接近聚类中心，并为其分配`K`点。

@@ -308,7 +308,7 @@ dtype: float64

 数组中的每个值都是平方的平均和，该平方具有一个群集到一组十个群集。

-现在，我们使用以下数据绘制 k 均值聚类的**弯头** **曲线**（这是曲线开始展平的点）：
+现在，我们使用以下数据绘制 k 均值聚类的**肘形曲线**（这是曲线开始展平的点）：

 ```py
 >>> #Choosing the cluster number

--- a/new/master-py-ds/11.md
+++ b/new/master-py-ds/11.md
@@ -195,7 +195,7 @@ $ pip install git+git://github.com/amueller/word_cloud.git

 # 单词和句子标记化

-我们之前已经处理过单词标记化，但是我们可以使用 NLTK 以及句子标记化来执行此操作，这非常棘手，因为英语中有用于缩写和其他目的的句点符号。 幸运的是，句子标记器是`nltk`的`tokenize.punkt`模块中 **PunktSentenceTokenizer** 的实例，该模块有助于标记句子。
+我们之前已经处理过单词标记化，但是我们可以使用 NLTK 以及句子标记化来执行此操作，这非常棘手，因为英语中有用于缩写和其他目的的句点符号。 幸运的是，句子标记器是`nltk`的`tokenize.punkt`模块中`PunktSentenceTokenizer`的实例，该模块有助于标记句子。

 让我们看一下使用以下代码的单词标记化：


--- a/new/master-py-ds/12.md
+++ b/new/master-py-ds/12.md
@@ -4,9 +4,9 @@

 大数据有三个 V，它们的定义如下：

-*   **卷**：此定义数据的大小。 Facebook 拥有数 PB 的用户数据。
-*   **Velocity**：这是生成数据的速率。
-*   **品种**：数据不是仅表格形式的。 我们可以从文本，图像和声音中获取数据。 数据也以 JSON，XML 和其他类型的形式出现。
+*   **容量**：此定义数据的大小。 Facebook 拥有数 PB 的用户数据。
+*   **速度**：这是生成数据的速率。
+*   **种类**：数据不是仅表格形式的。 我们可以从文本，图像和声音中获取数据。 数据也以 JSON，XML 和其他类型的形式出现。

 让我们看一下以下屏幕截图：