提交 e86b655f 编写于 作者: W wizardforcel

2020-07-18 22:49:49

上级 28086e4d
......@@ -10,8 +10,8 @@
* 聚合和分组
* 匹配
* 拆分合并
* 熔化重塑
*素和分类数据
* 熔化重塑
*子和类别数据
# R 数据类型
......@@ -28,7 +28,7 @@ R 具有五种原始或原子类型:
* **向量**:类似于`numpy.array`。 它只能包含相同类型的对象。
* **列表**:这是一个异构容器。 相当于 Pandas 的序列。
* **数据帧** :这是一个异构 2D 容器,等效于 Pandas 数据帧
* **矩阵**-它是向量的均质 2D 版本。 它类似于`numpy.matrix`
* **矩阵**:它是向量的均质 2D 版本。 它类似于`numpy.matrix`
在本章中,我们将重点关注列表和数据帧,它们具有与序列和数据帧等效的 Pandas。
......@@ -641,7 +641,7 @@ Out[10]: 0 True
我们可以在 R 中执行以下操作:
* 通过逻辑片:
* 通过逻辑片:
```py
>goal_stats[goal_stats$GoalsPerGame>=0.5,]
......@@ -967,6 +967,6 @@ dtype: int64
在本章中,我们试图将 R 中的关键特征与其等效的 Pandas 进行比较,以实现以下目标:
* 帮助可能希望在 Pandas 中复制相同功能的 R 用户
* 为了帮助阅读了一些 R 代码的任何用户可能希望将其重写为 Pandas 代码
* 帮助阅读了一些 R 代码,并可能希望将其重写为 Pandas 代码的任何用户
在下一章中,我们将通过对`scikit-learn`库进行机器学习的简要介绍来结束本书,并展示 Pandas 如何适合该框架。 可在以下位置找到[本章的参考文档](http://pandas.pydata.org/pandas-docs/stable/comparison_with_r.html)
\ No newline at end of file
......@@ -8,9 +8,9 @@
* 安装`scikit-learn`
* 机器学习概念简介
* 机器学习的应用 – Kaggle 泰坦尼克竞赛
* 使用 Pandas 进行数据分析和预处理
* 朴素的解决泰坦尼克号问题的方法
* `scikit-learn` ML 分类器界面
* Pandas 数据分析和预处理
* 解决泰坦尼克号问题的朴素方法
* `scikit-learn` ML 分类器接口
* 监督学习算法
* 无监督学习算法
......@@ -89,7 +89,7 @@ pip install –U scikit-learn
对于有监督的学习问题,学习问题的输入是由*带标签*数据组成的数据集。 这意味着我们具有已知其值的输出。 向学习程序提供输入样本及其对应的输出,其目的是破译它们之间的关系。 这样的输入称为标记数据。 监督学习问题包括以下内容:
* **分类**:学习的属性是分类(标称)或离散的
* **分类**:学习的属性是类别(标称)或离散的
* **回归**:学习的属性为数字/连续
在无监督学习或数据挖掘中,向学习程序提供输入,但没有相应的输出。 该输入数据称为未标记数据。 学习程序的目标是学习或解密隐藏的标签。 这些问题包括:
......@@ -467,9 +467,9 @@ Out[185]: <matplotlib.axes._subplots.AxesSubplot at 0x7f714b187e90>
根据我们之前在分析中看到的内容,似乎对存活率影响最大的三个特征是:
* 旅客舱位
* 性别
* 客运费(桶装)
* `Pclass`
* `Sex`
* `PriceBucket`
我们包括与乘客等级有关的乘客票价。
......@@ -765,7 +765,7 @@ for formula_name, formula in formula_map.iteritems():
前面的代码遵循一个标准配方,其摘要如下:
1. 阅读训练和测试数据集
1. 读取训练和测试数据集
2. 填写我们希望在两个数据集中考虑的要素的所有缺失值
3. 为我们希望在`Patsy`中生成机器学习模型的各种特征组合定义公式
4. 对于每个公式,请执行以下步骤:
......@@ -1049,7 +1049,7 @@ In [10]: print iris_data.target_names
如前所述,鸢尾花特征集对应于五维数据,因此我们无法在色图上对其进行可视化。 我们可以做的一件事是选择两个特征并将它们相互绘制,同时使用颜色区分物种特征。 接下来,我们对所有可能的特征组合进行此操作,一次为一组六个不同的可能性选择两个。 这些组合如下:
* 隔垫宽度与隔垫长度
* 萼片宽度与花瓣长度
* 萼片宽度与花瓣宽度
* 萼片宽度与花瓣长度
* 萼片长度与花瓣宽度
......
......@@ -74,7 +74,7 @@ python --version
Fedora 软件安装在[这个页面](http://bit.ly/1B2RpCj)上。
3. Open Suse
3. OpenSuse
```py
sudo zypper install python
......@@ -448,7 +448,7 @@ import pandas
安装`Cython`的步骤如下:
* 通过 Pip 安装:
* 通过 PIP 安装:
```py
C:\Python27\Scripts\pip install Cython
......
......@@ -16,7 +16,7 @@
NumPy 库是一个非常重要的软件包,用于使用 Python 进行数值计算。 其主要功能包括:
* `numpy.ndarray`类型,同构多维数组
* 访问大量数学函数线性代数,统计信息等
* 访问大量数学函数线性代数,统计信息等
* 能够集成 C,C++ 和 Fortran 代码
有关 NumPy 的更多信息,请参见[这里](http://www.numpy.org)
......@@ -736,8 +736,8 @@ Out[313]: array([ 9, 13, 13, 14, 23, 23, 24, 32, 41, 41, 49, 55,
逻辑运算符可用于数组比较/检查。 它们如下:
* `np.all()`:用于逐个元素和所有元素
* `np.any()`:用于逐个元素或所有元素
* `np.all()`:用于计算所有元素的逐元素 AND
* `np.any()`:用于计算所有元素的逐元素 OR
生成`ints``4×4`随机数组,并检查是否有任何元素可以被 7 整除,并且所有元素都小于 11:
......@@ -927,8 +927,8 @@ Out[380]: array([[14],
* `np.var()`:它返回数组中元素的方差
* `np.argmin()`:最小索引
* `np.argmax()`:最大索引
* `np.all()`按元素和所有元素返回
* `np.any()`按元素或所有元素返回
* `np.all()`返回所有元素的按元素 AND
* `np.any()`返回所有元素的按元素 OR
# Pandas 中的数据结构
......@@ -958,7 +958,7 @@ ser=pd.Series(data, index=idx)
数据可以是以下之一:
* ndarray
* `ndarray`
* Python 字典
* 标量值
......
......@@ -4,7 +4,7 @@
* 基本索引
* 标签,整数和混合索引
* 多索引
*索引
* 布尔索引
* 索引操作
......@@ -280,9 +280,9 @@ Out[683]: 2013-Q4 106.7
除了标准索引运算符`[]`和属性运算符外,pandas 中还提供了一些运算符,以使索引工作更轻松,更方便。 通过标签索引,我们通常是指通过标题名称进行索引,该标题名称在大多数情况下往往是字符串值。 这些运算符如下:
* `.loc`运算符:它允许面向标签的索引
* `.loc`运算符:它允许基于标签的索引
* `.iloc`运算符:它允许基于整数的索引
* `.ix`运算符:它允许混合标签和基于整数的索引
* `.ix`运算符:它允许混合基于标签和整数的索引
现在,我们将注意力转向这些操作员。
......@@ -290,9 +290,9 @@ Out[683]: 2013-Q4 106.7
`.loc`运算符支持基于纯标签的索引。 它接受以下内容作为有效输入:
* 单个标签,例如['March'],[88]或['Dubai']。 请注意,在标签是整数的情况下,它不是引用索引的整数位置,而是引用整数本身作为标签。
* 标签列表或数组,例如['Dubai','UK Brent']
* 带标签的切片对象,例如'May':'Aug'
* 单个标签,例如`['March']``[88]``['Dubai']`。 请注意,在标签是整数的情况下,它不是引用索引的整数位置,而是引用整数本身作为标签。
* 标签列表或数组,例如`['Dubai', 'UK Brent']`
* 带标签的切片对象,例如`'May':'Aug'`
* 布尔数组。
对于我们的说明性数据集,我们使用以下城市的平均下雪天气温度数据:
......
......@@ -127,7 +127,7 @@ Out[106]: Nation Winners
多列`groupby`通过将键列指定为列表来指定多个列用作键。 因此,我们可以看到,这场比赛中最成功的俱乐部是西班牙的皇家马德里。 现在,我们检查了更丰富的数据集,这将使我们能够说明`groupby`的更多功能。 此数据集还与足球相关,并提供了 2012-2013 赛季欧洲四大联赛的统计数据:
* 英超联赛或 EPL
* 西班牙总理队或西甲
* 西班牙甲级联赛或西甲
* 意大利甲级联赛
* 德国超级联赛或德甲联赛
......
......@@ -4,7 +4,7 @@
* 处理缺失的数据
* 处理时间序列和日期
* 使用`matplotlib`
* 使用`matplotlib`
到本章结束时,用户应该精通这些关键领域。
......@@ -567,7 +567,7 @@ Out[140]: 1959-06-29 00:00:00 445
在这里,我们检查了一些滴答数据以用于重采样。 在检查数据之前,我们需要进行准备。 通过这样做,我们将学习一些有关时间序列数据的有用技术,如下所示:
*代时间戳
* 时间戳
* 时区处理
这是一个使用滴答数据作为 2014 年 5 月 27 日星期二的 Google 股票价格的示例:
......
......@@ -47,7 +47,7 @@
### 众数
众数是数据集中最频繁出现的值。 它通常用于分类数据,以便知道最常见的类别。 使用该众数的一个缺点是它不是唯一的。 具有两种众数的分布称为双峰分布,而具有多种众数的分布称为多峰分布。 这是一个双峰分布的示意图,其中众数分别为两个和七个,因为它们在数据集中都出现了四次:
众数是数据集中最频繁出现的值。 它通常用于类别数据,以便知道最常见的类别。 使用该众数的一个缺点是它不是唯一的。 具有两种众数的分布称为双峰分布,而具有多种众数的分布称为多峰分布。 这是一个双峰分布的示意图,其中众数分别为两个和七个,因为它们在数据集中都出现了四次:
```py
In [4]: import matplotlib.pyplot as plt
......@@ -151,7 +151,7 @@ In [56]: plt.hist(salaries, bins=len(salaries))
### 注意
直方图实际上是数据的更好表示,因为条形图通常用于表示分类数据,而直方图是定量数据的首选,而薪金数据就是这种情况。
直方图实际上是数据的更好表示,因为条形图通常用于表示类别数据,而直方图是定量数据的首选,而薪金数据就是这种情况。
有关何时使用直方图和条形图的更多信息,请参见[这里](http://onforb.es/1Dru2gv)
......
......@@ -7,7 +7,7 @@
* 概率分布
* 贝叶斯统计与频率统计
* PyMC 和蒙特卡洛仿真简介
* 贝叶斯推理的插图–切换点检测
* 贝叶斯推理的示例 – 切换点检测
# 贝叶斯统计概论
......@@ -96,8 +96,8 @@
* 两个包含彩球
* 一个包含 50 个红色和 50 个蓝色球
* n 包含 30 个红色和 70 个蓝色球
* 随机选择两个中的一个(概率为 50% ),然后从两个中的一个随机抽出一个球
* n 包含 30 个红色和 70 个蓝色球
* 随机选择两个中的一个(概率为 50%),然后从两个中的一个随机抽出一个球
如果画了一个红色的球,那么它来自的概率是多少? 我们想要 ![Mathematical framework for Bayesian statistics](img/images_00091.jpeg) 即 ![Mathematical framework for Bayesian statistics](img/images_00096.jpeg)
......
......@@ -164,7 +164,7 @@
## Pandas `stats`
* `api.py`:这是一组便导入。
* `api.py`:这是一组便导入。
* `common.py`:定义模块中其他功能调用的内部功能。
* `fama_macbeth.py`:包含 Fama-Macbeth 回归的类定义和函数。 有关 FM 回归的更多信息,请访问[这里](http://en.wikipedia.org/wiki/Fama-MacBeth_regression)
* `interface.py`:它定义`ols(..)`,它返回**普通最小二乘****OLS**)回归对象。 它从`pandas.stats.ols`模块导入。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册