diff --git a/docs/master-pandas/10.md b/docs/master-pandas/10.md index 6016cc8b36519ab14a70236a2a22310f59ee1c05..e68e1e596583321ac1eb32748f08f2cd8f7ebc37 100644 --- a/docs/master-pandas/10.md +++ b/docs/master-pandas/10.md @@ -10,8 +10,8 @@ * 聚合和分组 * 匹配 * 拆分合并 -* 熔化并重塑 -* 因素和分类数据 +* 熔化和重塑 +* 因子和类别数据 # R 数据类型 @@ -28,7 +28,7 @@ R 具有五种原始或原子类型: * **向量**:类似于`numpy.array`。 它只能包含相同类型的对象。 * **列表**:这是一个异构容器。 相当于 Pandas 的序列。 * **数据帧** :这是一个异构 2D 容器,等效于 Pandas 数据帧 -* **矩阵**:-它是向量的均质 2D 版本。 它类似于`numpy.matrix`。 +* **矩阵**:它是向量的均质 2D 版本。 它类似于`numpy.matrix`。 在本章中,我们将重点关注列表和数据帧,它们具有与序列和数据帧等效的 Pandas。 @@ -641,7 +641,7 @@ Out[10]: 0 True 我们可以在 R 中执行以下操作: -* 通过逻辑片: +* 通过逻辑切片: ```py >goal_stats[goal_stats$GoalsPerGame>=0.5,] @@ -967,6 +967,6 @@ dtype: int64 在本章中,我们试图将 R 中的关键特征与其等效的 Pandas 进行比较,以实现以下目标: * 帮助可能希望在 Pandas 中复制相同功能的 R 用户 -* 为了帮助阅读了一些 R 代码的任何用户可能希望将其重写为 Pandas 代码 +* 帮助阅读了一些 R 代码,并可能希望将其重写为 Pandas 代码的任何用户 在下一章中,我们将通过对`scikit-learn`库进行机器学习的简要介绍来结束本书,并展示 Pandas 如何适合该框架。 可在以下位置找到[本章的参考文档](http://pandas.pydata.org/pandas-docs/stable/comparison_with_r.html)。 \ No newline at end of file diff --git a/docs/master-pandas/11.md b/docs/master-pandas/11.md index 72d09427ff4b507e6190763e66da14703e78fd6d..4ba7d5f7d3fbe66a6640b47ab4361a5a9ce27b2b 100644 --- a/docs/master-pandas/11.md +++ b/docs/master-pandas/11.md @@ -8,9 +8,9 @@ * 安装`scikit-learn` * 机器学习概念简介 * 机器学习的应用 – Kaggle 泰坦尼克竞赛 -* 使用 Pandas 进行数据分析和预处理 -* 朴素的解决泰坦尼克号问题的方法 -* `scikit-learn` ML 分类器界面 +* Pandas 数据分析和预处理 +* 解决泰坦尼克号问题的朴素方法 +* `scikit-learn` ML 分类器接口 * 监督学习算法 * 无监督学习算法 @@ -89,7 +89,7 @@ pip install –U scikit-learn 对于有监督的学习问题,学习问题的输入是由*带标签*数据组成的数据集。 这意味着我们具有已知其值的输出。 向学习程序提供输入样本及其对应的输出,其目的是破译它们之间的关系。 这样的输入称为标记数据。 监督学习问题包括以下内容: -* **分类**:学习的属性是分类(标称)或离散的 +* **分类**:学习的属性是类别(标称)或离散的 * **回归**:学习的属性为数字/连续 在无监督学习或数据挖掘中,向学习程序提供输入,但没有相应的输出。 该输入数据称为未标记数据。 学习程序的目标是学习或解密隐藏的标签。 这些问题包括: @@ -467,9 +467,9 @@ Out[185]: 根据我们之前在分析中看到的内容,似乎对存活率影响最大的三个特征是: -* 旅客舱位 -* 性别 -* 客运费(桶装) +* `Pclass` +* `Sex` +* `PriceBucket` 我们包括与乘客等级有关的乘客票价。 @@ -765,7 +765,7 @@ for formula_name, formula in formula_map.iteritems(): 前面的代码遵循一个标准配方,其摘要如下: -1. 阅读训练和测试数据集 +1. 读取训练和测试数据集 2. 填写我们希望在两个数据集中考虑的要素的所有缺失值 3. 为我们希望在`Patsy`中生成机器学习模型的各种特征组合定义公式 4. 对于每个公式,请执行以下步骤: @@ -1049,7 +1049,7 @@ In [10]: print iris_data.target_names 如前所述,鸢尾花特征集对应于五维数据,因此我们无法在色图上对其进行可视化。 我们可以做的一件事是选择两个特征并将它们相互绘制,同时使用颜色区分物种特征。 接下来,我们对所有可能的特征组合进行此操作,一次为一组六个不同的可能性选择两个。 这些组合如下: -* 隔垫宽度与隔垫长度 +* 萼片宽度与花瓣长度 * 萼片宽度与花瓣宽度 * 萼片宽度与花瓣长度 * 萼片长度与花瓣宽度 diff --git a/docs/master-pandas/2.md b/docs/master-pandas/2.md index a81980c5f5eda6f676ac82daf21281abb9216fc1..51401f4abfe22b0e412dcc3dbbe3acba6e455c5b 100644 --- a/docs/master-pandas/2.md +++ b/docs/master-pandas/2.md @@ -74,7 +74,7 @@ python --version Fedora 软件安装在[这个页面](http://bit.ly/1B2RpCj)上。 -3. Open Suse +3. OpenSuse ```py sudo zypper install python @@ -448,7 +448,7 @@ import pandas 安装`Cython`的步骤如下: -* 通过 Pip 安装: +* 通过 PIP 安装: ```py C:\Python27\Scripts\pip install Cython diff --git a/docs/master-pandas/3.md b/docs/master-pandas/3.md index 23db5b58282f81101ca4ccb9ca15ba86de6f61c5..fea4b4c23fde9ac81fa5721e3ee96b14935c8bed 100644 --- a/docs/master-pandas/3.md +++ b/docs/master-pandas/3.md @@ -16,7 +16,7 @@ NumPy 库是一个非常重要的软件包,用于使用 Python 进行数值计算。 其主要功能包括: * `numpy.ndarray`类型,同构多维数组 -* 访问大量数学函数–线性代数,统计信息等 +* 访问大量数学函数 – 线性代数,统计信息等 * 能够集成 C,C++ 和 Fortran 代码 有关 NumPy 的更多信息,请参见[这里](http://www.numpy.org)。 @@ -736,8 +736,8 @@ Out[313]: array([ 9, 13, 13, 14, 23, 23, 24, 32, 41, 41, 49, 55, 逻辑运算符可用于数组比较/检查。 它们如下: -* `np.all()`:用于逐个元素和所有元素 -* `np.any()`:用于逐个元素或所有元素 +* `np.all()`:用于计算所有元素的逐元素 AND +* `np.any()`:用于计算所有元素的逐元素 OR 生成`ints`的`4×4`随机数组,并检查是否有任何元素可以被 7 整除,并且所有元素都小于 11: @@ -927,8 +927,8 @@ Out[380]: array([[14], * `np.var()`:它返回数组中元素的方差 * `np.argmin()`:最小索引 * `np.argmax()`:最大索引 - * `np.all()`:按元素和所有元素返回 - * `np.any()`:按元素或所有元素返回 + * `np.all()`:返回所有元素的按元素 AND + * `np.any()`:返回所有元素的按元素 OR # Pandas 中的数据结构 @@ -958,7 +958,7 @@ ser=pd.Series(data, index=idx) 数据可以是以下之一: -* ndarray +* `ndarray` * Python 字典 * 标量值 diff --git a/docs/master-pandas/4.md b/docs/master-pandas/4.md index 149e45cdef38de4ed7fd2b390d83d64069adbcad..ebc1a318c5b2aad9d26ea9d2630e8300b1a00cfc 100644 --- a/docs/master-pandas/4.md +++ b/docs/master-pandas/4.md @@ -4,7 +4,7 @@ * 基本索引 * 标签,整数和混合索引 -* 多索引 +* 多重索引 * 布尔索引 * 索引操作 @@ -280,9 +280,9 @@ Out[683]: 2013-Q4 106.7 除了标准索引运算符`[]`和属性运算符外,pandas 中还提供了一些运算符,以使索引工作更轻松,更方便。 通过标签索引,我们通常是指通过标题名称进行索引,该标题名称在大多数情况下往往是字符串值。 这些运算符如下: -* `.loc`运算符:它允许面向标签的索引 +* `.loc`运算符:它允许基于标签的索引 * `.iloc`运算符:它允许基于整数的索引 -* `.ix`运算符:它允许混合标签和基于整数的索引 +* `.ix`运算符:它允许混合基于标签和整数的索引 现在,我们将注意力转向这些操作员。 @@ -290,9 +290,9 @@ Out[683]: 2013-Q4 106.7 `.loc`运算符支持基于纯标签的索引。 它接受以下内容作为有效输入: -* 单个标签,例如['March'],[88]或['Dubai']。 请注意,在标签是整数的情况下,它不是引用索引的整数位置,而是引用整数本身作为标签。 -* 标签列表或数组,例如['Dubai','UK Brent']。 -* 带标签的切片对象,例如'May':'Aug'。 +* 单个标签,例如`['March']`,`[88]`或`['Dubai']`。 请注意,在标签是整数的情况下,它不是引用索引的整数位置,而是引用整数本身作为标签。 +* 标签列表或数组,例如`['Dubai', 'UK Brent']`。 +* 带标签的切片对象,例如`'May':'Aug'`。 * 布尔数组。 对于我们的说明性数据集,我们使用以下城市的平均下雪天气温度数据: diff --git a/docs/master-pandas/5.md b/docs/master-pandas/5.md index cd9e60db0b6184d6909a8cf3fc4da89335cbd8bd..16521ecc5bf44c3012aec3899d3c81b25313aba0 100644 --- a/docs/master-pandas/5.md +++ b/docs/master-pandas/5.md @@ -127,7 +127,7 @@ Out[106]: Nation Winners 多列`groupby`通过将键列指定为列表来指定多个列用作键。 因此,我们可以看到,这场比赛中最成功的俱乐部是西班牙的皇家马德里。 现在,我们检查了更丰富的数据集,这将使我们能够说明`groupby`的更多功能。 此数据集还与足球相关,并提供了 2012-2013 赛季欧洲四大联赛的统计数据: * 英超联赛或 EPL -* 西班牙总理队或西甲 +* 西班牙甲级联赛或西甲 * 意大利甲级联赛 * 德国超级联赛或德甲联赛 diff --git a/docs/master-pandas/6.md b/docs/master-pandas/6.md index f10c2896044587acf038bcbba82532679aa05fe8..0fa42cef16c90d9bf0916e0bf3a3401a19c74536 100644 --- a/docs/master-pandas/6.md +++ b/docs/master-pandas/6.md @@ -4,7 +4,7 @@ * 处理缺失的数据 * 处理时间序列和日期 -* 使用`matplotlib`绘制 +* 使用`matplotlib`绘图 到本章结束时,用户应该精通这些关键领域。 @@ -567,7 +567,7 @@ Out[140]: 1959-06-29 00:00:00 445 在这里,我们检查了一些滴答数据以用于重采样。 在检查数据之前,我们需要进行准备。 通过这样做,我们将学习一些有关时间序列数据的有用技术,如下所示: -* 时代时间戳 +* 时间戳 * 时区处理 这是一个使用滴答数据作为 2014 年 5 月 27 日星期二的 Google 股票价格的示例: diff --git a/docs/master-pandas/7.md b/docs/master-pandas/7.md index 5bdb82b2ec7099e86227bd8365ccd1f2b462bf11..a37d40547e51941849471be0563e054418ae143a 100644 --- a/docs/master-pandas/7.md +++ b/docs/master-pandas/7.md @@ -47,7 +47,7 @@ ### 众数 -众数是数据集中最频繁出现的值。 它通常用于分类数据,以便知道最常见的类别。 使用该众数的一个缺点是它不是唯一的。 具有两种众数的分布称为双峰分布,而具有多种众数的分布称为多峰分布。 这是一个双峰分布的示意图,其中众数分别为两个和七个,因为它们在数据集中都出现了四次: +众数是数据集中最频繁出现的值。 它通常用于类别数据,以便知道最常见的类别。 使用该众数的一个缺点是它不是唯一的。 具有两种众数的分布称为双峰分布,而具有多种众数的分布称为多峰分布。 这是一个双峰分布的示意图,其中众数分别为两个和七个,因为它们在数据集中都出现了四次: ```py In [4]: import matplotlib.pyplot as plt @@ -151,7 +151,7 @@ In [56]: plt.hist(salaries, bins=len(salaries)) ### 注意 -直方图实际上是数据的更好表示,因为条形图通常用于表示分类数据,而直方图是定量数据的首选,而薪金数据就是这种情况。 +直方图实际上是数据的更好表示,因为条形图通常用于表示类别数据,而直方图是定量数据的首选,而薪金数据就是这种情况。 有关何时使用直方图和条形图的更多信息,请参见[这里](http://onforb.es/1Dru2gv)。 diff --git a/docs/master-pandas/8.md b/docs/master-pandas/8.md index cda2494ac2f6496a2c90d74af114f4db9ebbcbd5..82b08dac08f7629a1513304cc0b73ed786f6270a 100644 --- a/docs/master-pandas/8.md +++ b/docs/master-pandas/8.md @@ -7,7 +7,7 @@ * 概率分布 * 贝叶斯统计与频率统计 * PyMC 和蒙特卡洛仿真简介 -* 贝叶斯推理的插图–切换点检测 +* 贝叶斯推理的示例 – 切换点检测 # 贝叶斯统计概论 @@ -96,8 +96,8 @@ * 两个包含彩球 * 一个包含 50 个红色和 50 个蓝色球 -* n 包含 30 个红色和 70 个蓝色球 -* 随机选择两个中的一个(概率为 50% ),然后从两个中的一个随机抽出一个球 +* n 个包含 30 个红色和 70 个蓝色球 +* 随机选择两个中的一个(概率为 50%),然后从两个中的一个随机抽出一个球 如果画了一个红色的球,那么它来自的概率是多少? 我们想要 ![Mathematical framework for Bayesian statistics](img/images_00091.jpeg) 即 ![Mathematical framework for Bayesian statistics](img/images_00096.jpeg)。 diff --git a/docs/master-pandas/9.md b/docs/master-pandas/9.md index caedfd019dcfd622a30e9e8b85c9f20b0fc1be21..66a04a04b0986450b2a9cd06d8eb7e61e16baf6d 100644 --- a/docs/master-pandas/9.md +++ b/docs/master-pandas/9.md @@ -164,7 +164,7 @@ ## Pandas `stats` -* `api.py`:这是一组便捷导入。 +* `api.py`:这是一组便利导入。 * `common.py`:定义模块中其他功能调用的内部功能。 * `fama_macbeth.py`:包含 Fama-Macbeth 回归的类定义和函数。 有关 FM 回归的更多信息,请访问[这里](http://en.wikipedia.org/wiki/Fama-MacBeth_regression)。 * `interface.py`:它定义`ols(..)`,它返回**普通最小二乘**(**OLS**)回归对象。 它从`pandas.stats.ols`模块导入。