2021-03-11 23:01:08

4c54d685 · wizardforcel · 0d785b6a · 4c54d685 · 4c54d685 · 4c54d685
11 changed file
--- a/new/master-py-ds/00.md
+++ b/new/master-py-ds/00.md
@@ -42,7 +42,7 @@
 *   IPython 4.0
 *   SciKit 0.16.1 模块
 *   statsmodels 0.6.1 模块
-*   matplotlib 1.4.3 库
+*   Matplotlib 1.4.3 库
 *   带有 MRv1（MapReduce 版本 1）的 Apache Hadoop CDH4（Cloudera Hadoop 4）
 *   Apache Spark 1.4.0


--- a/new/master-py-ds/01.md
+++ b/new/master-py-ds/01.md
@@ -236,9 +236,9 @@ Pandas 库在 Python 世界中带来了 R 的丰富功能，可以处理数据

 Pandas库本质上具有三个数据结构：

-1.  系列
+1.  序列
 2.  数据帧
-3.  控制板
+3.  面板

 ### 序列

@@ -290,10 +290,10 @@ dtype: int64

 `DataFrame`是 2D 数据结构，其列可以具有不同的数据类型。 它可以看作是一张桌子。 一个`DataFrame`可以由以下数据结构组成：

-*   一个 NumPy 数组
-*   清单
+*   1D NumPy 数组
+*   列表
 *   字典
-*   系列
+*   序列
 *   2D NumPy 数组

 可以通过调用以下命令从系列字典创建`DataFrame`：

--- a/new/master-py-ds/03.md
+++ b/new/master-py-ds/03.md
@@ -47,13 +47,13 @@

 *   **产品增长**：以下是用于简化分析的问题：

-    *   就销售而言，增长最快的品牌是哪些？
+    *   就销售而言，哪些是增长最快的品牌？
    *   就销量而言，哪些是增长最快的品牌？
    *   哪个品牌的增长趋于平稳？

 *   **产品的季节性影响**：以下是用于简化分析的问题：

-    *   季节性有几个品牌？
+    *   有几个品牌是季节性的？
    *   在季节性和非季节性期间，销售方面有何不同？
    *   哪个假期为特定品牌带来了最大的销售额？

@@ -173,8 +173,8 @@

 这些是我们的观察结果：

-*   幸存者的最大人数分别是一等和三等
-*   对于每个班级的乘客总数，头等舱的最大幸存者约为 61%
+*   幸存者的最大和最小人数分别是一等和三等
+*   对于每个舱位的乘客总数，一等舱的幸存者最多，约为 61%
 *   对于每个舱位的乘客总数，三等舱的幸存者人数最少，约为 25%

 这是我们的主要收获：
@@ -252,7 +252,7 @@

 这些是我们的观察：

-*   所有班级中大多数幸存者是女性
+*   所有舱位中大多数幸存者是女性
 *   头等舱和二等舱中超过 90% 的女性乘客幸存
 *   在头等舱和三等舱中幸存下来的男性乘客百分比是可比的

@@ -317,8 +317,8 @@

 这些是我们的观察结果：

-*   第三类中有很多非幸存者
-*   二等人与亲属的非幸存者人数最少
+*   三等舱中有很多非幸存者
+*   二等舱中带亲属的非幸存者人数最少
 *   就乘客总数而言，拥有亲属的头等舱的非幸存者比例最高，而三等舱的非幸存者比例最低。

 这是我们的主要收获：

--- a/new/master-py-ds/04.md
+++ b/new/master-py-ds/04.md
@@ -5,8 +5,8 @@
 在本章中，我们将讨论以下主题：

 *   控制图的属性
-*   结合多个地块
-*   样式化地块
+*   结合多个绘图
+*   样式化绘图
 *   创建各种高级可视化

 # 控制图表的线属性

--- a/new/master-py-ds/05.md
+++ b/new/master-py-ds/05.md
@@ -103,7 +103,7 @@

 以下是决策树的缺点：

-1.  分类错误率高，而训练集比班级数少。
+1.  分类错误率高，而训练集比类别数少。
 2.  当数据和因变量的数量增加时，计算将呈指数增长。
 3.  需要用于特定构造算法的离散数据。


--- a/new/master-py-ds/06.md
+++ b/new/master-py-ds/06.md
@@ -4,7 +4,7 @@

 在上一章中，向您介绍了线性回归以及一个简单的线性回归示例。 在本章中，您将学习如何创建以下内容：

-*   一个简单的线性回归模型
+*   简单线性回归模型
 *   多元线性回归模型

 # 简单线性回归
@@ -114,7 +114,7 @@ Coefficient value of the height is [ 1.00092142]
 以下是数据的列描述：

 *   `height`：这是指以英尺为单位的高度
-*   `weight`：指磅的重量
+*   `weight`：以磅为单位的重量
 *   `success_field_goals`：这是指成功完成射门得分的百分比（尝试的 100 个目标中的百分比）
 *   `success_free_throws`：这是指成功罚球的百分比（尝试的 100 个罚球中的百分比）
 *   `avg_points_scored`：这是指每局平均得分
@@ -139,7 +139,7 @@ Coefficient value of the height is [ 1.00092142]
 4.  体重最轻的球员只有 105 磅，这是相当晦涩的。
 5.  最重的球员是 263 磅。
 6.  球员的最佳投篮命中率是 60%。
-7.  球员最差的投篮命中率是 29%。
+7.  球员的最差投篮命中率是 29%。
 8.  一名球员的平均投篮命中率为 45%，但是从较小的标准差中，我们可以看到大多数球员的投篮命中率在 40% 至 50% 之间。
 9.  在罚球中，有一位球员错过了 3/4 的时间。
 10.  最佳罚球手的成功率达到 90%。

--- a/new/master-py-ds/07.md
+++ b/new/master-py-ds/07.md
@@ -19,7 +19,7 @@
 *   `Name`：这是指乘客的姓名
 *   `Sex`：这是指乘客的性别
 *   `Age`：这是指乘客的年龄
-*   `Sibsp`：指船上同级/配偶的数量
+*   `Sibsp`：指船上兄弟姐妹/配偶的数量
 *   `Parch`：这是指船上父母/子女的数量
 *   `Ticket`：这是票证编号
 *   `Fare`：这是指旅客票价

--- a/new/master-py-ds/09.md
+++ b/new/master-py-ds/09.md
@@ -8,7 +8,7 @@

 *   处理有关美国收入的人口普查数据并浏览该数据
 *   做出决策树以预测某人的收入是否超过 5 万美元
-*   制作随机森林模型并获得改进的数据性能
+*   制作随机森林模型并获得改进的数据表现

 # 人口普查收入数据集


--- a/new/master-py-ds/11.md
+++ b/new/master-py-ds/11.md
@@ -8,7 +8,7 @@
 *   从数据绘制词云
 *   单词和句子分词
 *   标记词性
-*   词干和词条去除
+*   词干提取和词形还原
 *   应用斯坦福命名实体识别器

 # 预处理数据
@@ -20,7 +20,7 @@
 我们将对数据执行以下操作：

 *   删除标点符号
-*   删除号码
+*   删除数字
 *   将文本转换为小写
 *   删除英语中最常见的单词，称为停用词，例如`be`，`the`，`on`等。


--- a/new/py-ds-essentials/5.md
+++ b/new/py-ds-essentials/5.md
@@ -120,7 +120,7 @@ In: import matplotlib.pyplot as plt

 ![](img/2b8c923f-21c9-4f57-8145-7452ec93d4bf.png)

-`subplot`命令接受`subplot(nrows, ncols, plot_number)`参数形式。 因此，在实例化时，它会基于`nrows`和`ncols`参数以及`plot_number`区域（从左侧的`1`区域开始）的地块数量为表示保留一定的空间。
+`subplot`命令接受`subplot(nrows, ncols, plot_number)`参数形式。 因此，在实例化时，它会基于`nrows`和`ncols`参数以及`plot_number`区域（从左侧的`1`区域开始）的绘图数量为表示保留一定的空间。

 您还可以将`plot`命令坐标与另一个字符串参数一起使用，这对于定义颜色和所表示曲线的类型很有用。 字符串通过组合您可以在以下链接上找到的代码来工作：


--- a/new/thoughtful-ds/09.md
+++ b/new/thoughtful-ds/09.md
@@ -12,7 +12,7 @@

 图的引入和相关的图论在 1736 年被列昂哈德·欧拉（Leonhard Euler）研究[柯尼斯堡（Königsberg）七桥](https://en.wikipedia.org/wiki/Seven_Bridges_of_K%C3%B6nigsberg)。

-这座城市被普雷格尔河分开，普雷格尔河在某些时候形成了两个岛屿，并根据下图所示的布局建造了七座桥梁。 问题是找到一种方法让人们一次又一次地跨过每座桥，然后回到起点。 欧拉证明了这个问题没有解决方案，并且在此过程中诞生了图论。 基本思想是将城市图转换为一个图形，其中每个土地块都是一个顶点，每个桥都是连接两个顶点（即土地块）的边。 然后将问题简化为找到一条路径，该路径是边缘和顶点的连续序列，仅包含每个桥一次。
+这座城市被普雷格尔河分开，普雷格尔河在某些时候形成了两个岛屿，并根据下图所示的布局建造了七座桥梁。 问题是找到一种方法让人们一次又一次地跨过每座桥，然后回到起点。 欧拉证明了这个问题没有解决方案，并且在此过程中诞生了图论。 基本思想是将城市图转换为一个图形，其中每个土绘图都是一个顶点，每个桥都是连接两个顶点（即土绘图）的边。 然后将问题简化为找到一条路径，该路径是边缘和顶点的连续序列，仅包含每个桥一次。

 下图显示了欧拉如何将*柯尼斯堡七桥*问题简化为图形问题：