2020-07-18 22:49:49

e86b655f · wizardforcel · 28086e4d · e86b655f · e86b655f · e86b655f
10 changed file
--- a/docs/master-pandas/10.md
+++ b/docs/master-pandas/10.md
@@ -10,8 +10,8 @@
 *   聚合和分组
 *   匹配
 *   拆分合并
-*   熔化并重塑
-*   因素和分类数据
+*   熔化和重塑
+*   因子和类别数据

 # R 数据类型

@@ -28,7 +28,7 @@ R 具有五种原始或原子类型：
 *   **向量**：类似于`numpy.array`。 它只能包含相同类型的对象。
 *   **列表**：这是一个异构容器。 相当于 Pandas 的序列。
 *   **数据帧** ：这是一个异构 2D 容器，等效于 Pandas 数据帧
-*   **矩阵**：-它是向量的均质 2D 版本。 它类似于`numpy.matrix`。
+*   **矩阵**：它是向量的均质 2D 版本。 它类似于`numpy.matrix`。

 在本章中，我们将重点关注列表和数据帧，它们具有与序列和数据帧等效的 Pandas。

@@ -641,7 +641,7 @@ Out[10]: 0     True

 我们可以在 R 中执行以下操作：

-*   通过逻辑片：
+*   通过逻辑切片：

    ```py
    >goal_stats[goal_stats$GoalsPerGame>=0.5,]
@@ -967,6 +967,6 @@ dtype: int64
 在本章中，我们试图将 R 中的关键特征与其等效的 Pandas 进行比较，以实现以下目标：

 *   帮助可能希望在 Pandas 中复制相同功能的 R 用户
-*   为了帮助阅读了一些 R 代码的任何用户可能希望将其重写为 Pandas 代码
+*   帮助阅读了一些 R 代码，并可能希望将其重写为 Pandas 代码的任何用户

 在下一章中，我们将通过对`scikit-learn`库进行机器学习的简要介绍来结束本书，并展示 Pandas 如何适合该框架。 可在以下位置找到[本章的参考文档](http://pandas.pydata.org/pandas-docs/stable/comparison_with_r.html)。
\ No newline at end of file
--- a/docs/master-pandas/11.md
+++ b/docs/master-pandas/11.md
@@ -8,9 +8,9 @@
 *   安装`scikit-learn`
 *   机器学习概念简介
 *   机器学习的应用 – Kaggle 泰坦尼克竞赛
-*   使用 Pandas 进行数据分析和预处理
-*   朴素的解决泰坦尼克号问题的方法
-*   `scikit-learn` ML 分类器界面
+*   Pandas 数据分析和预处理
+*   解决泰坦尼克号问题的朴素方法
+*   `scikit-learn` ML 分类器接口
 *   监督学习算法
 *   无监督学习算法

@@ -89,7 +89,7 @@ pip install –U scikit-learn

 对于有监督的学习问题，学习问题的输入是由*带标签*数据组成的数据集。 这意味着我们具有已知其值的输出。 向学习程序提供输入样本及其对应的输出，其目的是破译它们之间的关系。 这样的输入称为标记数据。 监督学习问题包括以下内容：

-*   **分类**：学习的属性是分类（标称）或离散的
+*   **分类**：学习的属性是类别（标称）或离散的
 *   **回归**：学习的属性为数字/连续

 在无监督学习或数据挖掘中，向学习程序提供输入，但没有相应的输出。 该输入数据称为未标记数据。 学习程序的目标是学习或解密隐藏的标签。 这些问题包括：
@@ -467,9 +467,9 @@ Out[185]: <matplotlib.axes._subplots.AxesSubplot at 0x7f714b187e90>

 根据我们之前在分析中看到的内容，似乎对存活率影响最大的三个特征是：

-*   旅客舱位
-*   性别
-*   客运费（桶装）
+*   `Pclass`
+*   `Sex`
+*   `PriceBucket`

 我们包括与乘客等级有关的乘客票价。

@@ -765,7 +765,7 @@ for formula_name, formula in formula_map.iteritems():

 前面的代码遵循一个标准配方，其摘要如下：

-1.  阅读训练和测试数据集
+1.  读取训练和测试数据集
 2.  填写我们希望在两个数据集中考虑的要素的所有缺失值
 3.  为我们希望在`Patsy`中生成机器学习模型的各种特征组合定义公式
 4.  对于每个公式，请执行以下步骤：
@@ -1049,7 +1049,7 @@ In [10]: print iris_data.target_names

 如前所述，鸢尾花特征集对应于五维数据，因此我们无法在色图上对其进行可视化。 我们可以做的一件事是选择两个特征并将它们相互绘制，同时使用颜色区分物种特征。 接下来，我们对所有可能的特征组合进行此操作，一次为一组六个不同的可能性选择两个。 这些组合如下：

-*   隔垫宽度与隔垫长度
+*   萼片宽度与花瓣长度
 *   萼片宽度与花瓣宽度
 *   萼片宽度与花瓣长度
 *   萼片长度与花瓣宽度

--- a/docs/master-pandas/2.md
+++ b/docs/master-pandas/2.md
@@ -74,7 +74,7 @@ python --version

    Fedora 软件安装在[这个页面](http://bit.ly/1B2RpCj)上。

-3.  Open Suse
+3.  OpenSuse

    ```py
     sudo zypper install python
@@ -448,7 +448,7 @@ import pandas

 安装`Cython`的步骤如下：

-*   通过 Pip 安装：
+*   通过 PIP 安装：

    ```py
    C:\Python27\Scripts\pip install Cython

--- a/docs/master-pandas/3.md
+++ b/docs/master-pandas/3.md
@@ -16,7 +16,7 @@
 NumPy 库是一个非常重要的软件包，用于使用 Python 进行数值计算。 其主要功能包括：

 *   `numpy.ndarray`类型，同构多维数组
-*   访问大量数学函数–线性代数，统计信息等
+*   访问大量数学函数 – 线性代数，统计信息等
 *   能够集成 C，C++ 和 Fortran 代码

 有关 NumPy 的更多信息，请参见[这里](http://www.numpy.org)。
@@ -736,8 +736,8 @@ Out[313]: array([ 9, 13, 13, 14, 23, 23, 24, 32, 41, 41, 49, 55,

 逻辑运算符可用于数组比较/检查。 它们如下：

-*   `np.all()`：用于逐个元素和所有元素
-*   `np.any()`：用于逐个元素或所有元素
+*   `np.all()`：用于计算所有元素的逐元素 AND
+*   `np.any()`：用于计算所有元素的逐元素 OR

 生成`ints`的`4×4`随机数组，并检查是否有任何元素可以被 7 整除，并且所有元素都小于 11：

@@ -927,8 +927,8 @@ Out[380]: array([[14],
    *   `np.var()`：它返回数组中元素的方差
    *   `np.argmin()`：最小索引
    *   `np.argmax()`：最大索引
-    *   `np.all()`：按元素和所有元素返回
-    *   `np.any()`：按元素或所有元素返回
+    *   `np.all()`：返回所有元素的按元素 AND
+    *   `np.any()`：返回所有元素的按元素 OR

 # Pandas 中的数据结构

@@ -958,7 +958,7 @@ ser=pd.Series(data, index=idx)

 数据可以是以下之一：

-*   ndarray
+*   `ndarray`
 *   Python 字典
 *   标量值


--- a/docs/master-pandas/4.md
+++ b/docs/master-pandas/4.md
@@ -4,7 +4,7 @@

 *   基本索引
 *   标签，整数和混合索引
-*   多索引
+*   多重索引
 *   布尔索引
 *   索引操作

@@ -280,9 +280,9 @@ Out[683]: 2013-Q4    106.7

 除了标准索引运算符`[]`和属性运算符外，pandas 中还提供了一些运算符，以使索引工作更轻松，更方便。 通过标签索引，我们通常是指通过标题名称进行索引，该标题名称在大多数情况下往往是字符串值。 这些运算符如下：

-*   `.loc`运算符：它允许面向标签的索引
+*   `.loc`运算符：它允许基于标签的索引
 *   `.iloc`运算符：它允许基于整数的索引
-*   `.ix`运算符：它允许混合标签和基于整数的索引
+*   `.ix`运算符：它允许混合基于标签和整数的索引

 现在，我们将注意力转向这些操作员。

@@ -290,9 +290,9 @@ Out[683]: 2013-Q4    106.7

 `.loc`运算符支持基于纯标签的索引。 它接受以下内容作为有效输入：

-*   单个标签，例如['March']，[88]或['Dubai']。 请注意，在标签是整数的情况下，它不是引用索引的整数位置，而是引用整数本身作为标签。
-*   标签列表或数组，例如['Dubai'，'UK Brent']。
-*   带标签的切片对象，例如'May'：'Aug'。
+*   单个标签，例如`['March']`，`[88]`或`['Dubai']`。 请注意，在标签是整数的情况下，它不是引用索引的整数位置，而是引用整数本身作为标签。
+*   标签列表或数组，例如`['Dubai', 'UK Brent']`。
+*   带标签的切片对象，例如`'May':'Aug'`。
 *   布尔数组。

 对于我们的说明性数据集，我们使用以下城市的平均下雪天气温度数据：

--- a/docs/master-pandas/5.md
+++ b/docs/master-pandas/5.md
@@ -127,7 +127,7 @@ Out[106]: Nation       Winners
 多列`groupby`通过将键列指定为列表来指定多个列用作键。 因此，我们可以看到，这场比赛中最成功的俱乐部是西班牙的皇家马德里。 现在，我们检查了更丰富的数据集，这将使我们能够说明`groupby`的更多功能。 此数据集还与足球相关，并提供了 2012-2013 赛季欧洲四大联赛的统计数据：

 *   英超联赛或 EPL
-*   西班牙总理队或西甲
+*   西班牙甲级联赛或西甲
 *   意大利甲级联赛
 *   德国超级联赛或德甲联赛


--- a/docs/master-pandas/6.md
+++ b/docs/master-pandas/6.md
@@ -4,7 +4,7 @@

 *   处理缺失的数据
 *   处理时间序列和日期
-*   使用`matplotlib`绘制
+*   使用`matplotlib`绘图

 到本章结束时，用户应该精通这些关键领域。

@@ -567,7 +567,7 @@ Out[140]: 1959-06-29 00:00:00    445

 在这里，我们检查了一些滴答数据以用于重采样。 在检查数据之前，我们需要进行准备。 通过这样做，我们将学习一些有关时间序列数据的有用技术，如下所示：

-*   时代时间戳
+*   时间戳
 *   时区处理

 这是一个使用滴答数据作为 2014 年 5 月 27 日星期二的 Google 股票价格的示例：

--- a/docs/master-pandas/7.md
+++ b/docs/master-pandas/7.md
@@ -47,7 +47,7 @@

 ### 众数

-众数是数据集中最频繁出现的值。 它通常用于分类数据，以便知道最常见的类别。 使用该众数的一个缺点是它不是唯一的。 具有两种众数的分布称为双峰分布，而具有多种众数的分布称为多峰分布。 这是一个双峰分布的示意图，其中众数分别为两个和七个，因为它们在数据集中都出现了四次：
+众数是数据集中最频繁出现的值。 它通常用于类别数据，以便知道最常见的类别。 使用该众数的一个缺点是它不是唯一的。 具有两种众数的分布称为双峰分布，而具有多种众数的分布称为多峰分布。 这是一个双峰分布的示意图，其中众数分别为两个和七个，因为它们在数据集中都出现了四次：

 ```py
 In [4]: import matplotlib.pyplot as plt
@@ -151,7 +151,7 @@ In [56]: plt.hist(salaries, bins=len(salaries))

 ### 注意

-直方图实际上是数据的更好表示，因为条形图通常用于表示分类数据，而直方图是定量数据的首选，而薪金数据就是这种情况。
+直方图实际上是数据的更好表示，因为条形图通常用于表示类别数据，而直方图是定量数据的首选，而薪金数据就是这种情况。

 有关何时使用直方图和条形图的更多信息，请参见[这里](http://onforb.es/1Dru2gv)。


--- a/docs/master-pandas/8.md
+++ b/docs/master-pandas/8.md
@@ -7,7 +7,7 @@
 *   概率分布
 *   贝叶斯统计与频率统计
 *   PyMC 和蒙特卡洛仿真简介
-*   贝叶斯推理的插图–切换点检测
+*   贝叶斯推理的示例 – 切换点检测

 # 贝叶斯统计概论

@@ -96,8 +96,8 @@

 *   两个包含彩球
 *   一个包含 50 个红色和 50 个蓝色球
-*   n 包含 30 个红色和 70 个蓝色球
-*   随机选择两个中的一个（概率为 50% ），然后从两个中的一个随机抽出一个球
+*   n 个包含 30 个红色和 70 个蓝色球
+*   随机选择两个中的一个（概率为 50%），然后从两个中的一个随机抽出一个球

 如果画了一个红色的球，那么它来自的概率是多少？ 我们想要 ![Mathematical framework for Bayesian statistics](img/images_00091.jpeg) 即 ![Mathematical framework for Bayesian statistics](img/images_00096.jpeg)。


--- a/docs/master-pandas/9.md
+++ b/docs/master-pandas/9.md
@@ -164,7 +164,7 @@

 ## Pandas `stats`

-*   `api.py`：这是一组便捷导入。
+*   `api.py`：这是一组便利导入。
 *   `common.py`：定义模块中其他功能调用的内部功能。
 *   `fama_macbeth.py`：包含 Fama-Macbeth 回归的类定义和函数。 有关 FM 回归的更多信息，请访问[这里](http://en.wikipedia.org/wiki/Fama-MacBeth_regression)。
 *   `interface.py`：它定义`ols(..)`，它返回**普通最小二乘**（**OLS**）回归对象。 它从`pandas.stats.ols`模块导入。