Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
apachecn-ds-zh
提交
e86b655f
A
apachecn-ds-zh
项目概览
OpenDocCN
/
apachecn-ds-zh
9 个月 前同步成功
通知
1
Star
287
Fork
69
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-ds-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
e86b655f
编写于
7月 18, 2020
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2020-07-18 22:49:49
上级
28086e4d
变更
10
隐藏空白更改
内联
并排
Showing
10 changed file
with
37 addition
and
37 deletion
+37
-37
docs/master-pandas/10.md
docs/master-pandas/10.md
+5
-5
docs/master-pandas/11.md
docs/master-pandas/11.md
+9
-9
docs/master-pandas/2.md
docs/master-pandas/2.md
+2
-2
docs/master-pandas/3.md
docs/master-pandas/3.md
+6
-6
docs/master-pandas/4.md
docs/master-pandas/4.md
+6
-6
docs/master-pandas/5.md
docs/master-pandas/5.md
+1
-1
docs/master-pandas/6.md
docs/master-pandas/6.md
+2
-2
docs/master-pandas/7.md
docs/master-pandas/7.md
+2
-2
docs/master-pandas/8.md
docs/master-pandas/8.md
+3
-3
docs/master-pandas/9.md
docs/master-pandas/9.md
+1
-1
未找到文件。
docs/master-pandas/10.md
浏览文件 @
e86b655f
...
...
@@ -10,8 +10,8 @@
*
聚合和分组
*
匹配
*
拆分合并
*
熔化
并
重塑
*
因
素和分类
数据
*
熔化
和
重塑
*
因
子和类别
数据
# R 数据类型
...
...
@@ -28,7 +28,7 @@ R 具有五种原始或原子类型:
*
**向量**
:类似于
`numpy.array`
。 它只能包含相同类型的对象。
*
**列表**
:这是一个异构容器。 相当于 Pandas 的序列。
*
**数据帧**
:这是一个异构 2D 容器,等效于 Pandas 数据帧
*
**矩阵**
:
-
它是向量的均质 2D 版本。 它类似于
`numpy.matrix`
。
*
**矩阵**
:它是向量的均质 2D 版本。 它类似于
`numpy.matrix`
。
在本章中,我们将重点关注列表和数据帧,它们具有与序列和数据帧等效的 Pandas。
...
...
@@ -641,7 +641,7 @@ Out[10]: 0 True
我们可以在 R 中执行以下操作:
*
通过逻辑片:
*
通过逻辑
切
片:
```py
>goal_stats[goal_stats$GoalsPerGame>=0.5,]
...
...
@@ -967,6 +967,6 @@ dtype: int64
在本章中,我们试图将 R 中的关键特征与其等效的 Pandas 进行比较,以实现以下目标:
*
帮助可能希望在 Pandas 中复制相同功能的 R 用户
*
为了帮助阅读了一些 R 代码的任何用户可能希望将其重写为 Pandas 代码
*
帮助阅读了一些 R 代码,并可能希望将其重写为 Pandas 代码的任何用户
在下一章中,我们将通过对
`scikit-learn`
库进行机器学习的简要介绍来结束本书,并展示 Pandas 如何适合该框架。 可在以下位置找到
[
本章的参考文档
](
http://pandas.pydata.org/pandas-docs/stable/comparison_with_r.html
)
。
\ No newline at end of file
docs/master-pandas/11.md
浏览文件 @
e86b655f
...
...
@@ -8,9 +8,9 @@
*
安装
`scikit-learn`
*
机器学习概念简介
*
机器学习的应用 – Kaggle 泰坦尼克竞赛
*
使用 Pandas 进行
数据分析和预处理
*
朴素的解决泰坦尼克号问题的
方法
*
`scikit-learn`
ML 分类器
界面
*
Pandas
数据分析和预处理
*
解决泰坦尼克号问题的朴素
方法
*
`scikit-learn`
ML 分类器
接口
*
监督学习算法
*
无监督学习算法
...
...
@@ -89,7 +89,7 @@ pip install –U scikit-learn
对于有监督的学习问题,学习问题的输入是由
*带标签*
数据组成的数据集。 这意味着我们具有已知其值的输出。 向学习程序提供输入样本及其对应的输出,其目的是破译它们之间的关系。 这样的输入称为标记数据。 监督学习问题包括以下内容:
*
**分类**
:学习的属性是
分类
(标称)或离散的
*
**分类**
:学习的属性是
类别
(标称)或离散的
*
**回归**
:学习的属性为数字/连续
在无监督学习或数据挖掘中,向学习程序提供输入,但没有相应的输出。 该输入数据称为未标记数据。 学习程序的目标是学习或解密隐藏的标签。 这些问题包括:
...
...
@@ -467,9 +467,9 @@ Out[185]: <matplotlib.axes._subplots.AxesSubplot at 0x7f714b187e90>
根据我们之前在分析中看到的内容,似乎对存活率影响最大的三个特征是:
*
旅客舱位
*
性别
*
客运费(桶装)
*
`Pclass`
*
`Sex`
*
`PriceBucket`
我们包括与乘客等级有关的乘客票价。
...
...
@@ -765,7 +765,7 @@ for formula_name, formula in formula_map.iteritems():
前面的代码遵循一个标准配方,其摘要如下:
1.
阅读
训练和测试数据集
1.
读取
训练和测试数据集
2.
填写我们希望在两个数据集中考虑的要素的所有缺失值
3.
为我们希望在
`Patsy`
中生成机器学习模型的各种特征组合定义公式
4.
对于每个公式,请执行以下步骤:
...
...
@@ -1049,7 +1049,7 @@ In [10]: print iris_data.target_names
如前所述,鸢尾花特征集对应于五维数据,因此我们无法在色图上对其进行可视化。 我们可以做的一件事是选择两个特征并将它们相互绘制,同时使用颜色区分物种特征。 接下来,我们对所有可能的特征组合进行此操作,一次为一组六个不同的可能性选择两个。 这些组合如下:
*
隔垫宽度与隔垫
长度
*
萼片宽度与花瓣
长度
*
萼片宽度与花瓣宽度
*
萼片宽度与花瓣长度
*
萼片长度与花瓣宽度
...
...
docs/master-pandas/2.md
浏览文件 @
e86b655f
...
...
@@ -74,7 +74,7 @@ python --version
Fedora 软件安装在[这个页面](http://bit.ly/1B2RpCj)上。
3.
Open
Suse
3.
OpenSuse
```py
sudo zypper install python
...
...
@@ -448,7 +448,7 @@ import pandas
安装`
Cython
`的步骤如下:
* 通过 P
ip
安装:
* 通过 P
IP
安装:
```py
C:\Python27\Scripts\pip install Cython
...
...
docs/master-pandas/3.md
浏览文件 @
e86b655f
...
...
@@ -16,7 +16,7 @@
NumPy 库是一个非常重要的软件包,用于使用 Python 进行数值计算。 其主要功能包括:
*
`numpy.ndarray`
类型,同构多维数组
*
访问大量数学函数
–
线性代数,统计信息等
*
访问大量数学函数
–
线性代数,统计信息等
*
能够集成 C,C++ 和 Fortran 代码
有关 NumPy 的更多信息,请参见
[
这里
](
http://www.numpy.org
)
。
...
...
@@ -736,8 +736,8 @@ Out[313]: array([ 9, 13, 13, 14, 23, 23, 24, 32, 41, 41, 49, 55,
逻辑运算符可用于数组比较/检查。 它们如下:
*
`np.all()`
:用于
逐个元素和所有元素
*
`np.any()`
:用于
逐个元素或所有元素
*
`np.all()`
:用于
计算所有元素的逐元素 AND
*
`np.any()`
:用于
计算所有元素的逐元素 OR
生成
`ints`
的
`4×4`
随机数组,并检查是否有任何元素可以被 7 整除,并且所有元素都小于 11:
...
...
@@ -927,8 +927,8 @@ Out[380]: array([[14],
*
`np.var()`
:它返回数组中元素的方差
*
`np.argmin()`
:最小索引
*
`np.argmax()`
:最大索引
*
`np.all()`
:
按元素和所有元素返回
*
`np.any()`
:
按元素或所有元素返回
*
`np.all()`
:
返回所有元素的按元素 AND
*
`np.any()`
:
返回所有元素的按元素 OR
# Pandas 中的数据结构
...
...
@@ -958,7 +958,7 @@ ser=pd.Series(data, index=idx)
数据可以是以下之一:
*
ndarray
*
`ndarray`
*
Python 字典
*
标量值
...
...
docs/master-pandas/4.md
浏览文件 @
e86b655f
...
...
@@ -4,7 +4,7 @@
*
基本索引
*
标签,整数和混合索引
*
多索引
*
多
重
索引
*
布尔索引
*
索引操作
...
...
@@ -280,9 +280,9 @@ Out[683]: 2013-Q4 106.7
除了标准索引运算符
`[]`
和属性运算符外,pandas 中还提供了一些运算符,以使索引工作更轻松,更方便。 通过标签索引,我们通常是指通过标题名称进行索引,该标题名称在大多数情况下往往是字符串值。 这些运算符如下:
*
`.loc`
运算符:它允许
面向
标签的索引
*
`.loc`
运算符:它允许
基于
标签的索引
*
`.iloc`
运算符:它允许基于整数的索引
*
`.ix`
运算符:它允许混合
标签和基于
整数的索引
*
`.ix`
运算符:它允许混合
基于标签和
整数的索引
现在,我们将注意力转向这些操作员。
...
...
@@ -290,9 +290,9 @@ Out[683]: 2013-Q4 106.7
`.loc`
运算符支持基于纯标签的索引。 它接受以下内容作为有效输入:
*
单个标签,例如
['March'],[88]或['Dubai']
。 请注意,在标签是整数的情况下,它不是引用索引的整数位置,而是引用整数本身作为标签。
*
标签列表或数组,例如
['Dubai','UK Brent']
。
*
带标签的切片对象,例如
'May':'Aug'
。
*
单个标签,例如
`['March']`
,
`[88]`
或
`['Dubai']`
。 请注意,在标签是整数的情况下,它不是引用索引的整数位置,而是引用整数本身作为标签。
*
标签列表或数组,例如
`['Dubai', 'UK Brent']`
。
*
带标签的切片对象,例如
`'May':'Aug'`
。
*
布尔数组。
对于我们的说明性数据集,我们使用以下城市的平均下雪天气温度数据:
...
...
docs/master-pandas/5.md
浏览文件 @
e86b655f
...
...
@@ -127,7 +127,7 @@ Out[106]: Nation Winners
多列
`groupby`
通过将键列指定为列表来指定多个列用作键。 因此,我们可以看到,这场比赛中最成功的俱乐部是西班牙的皇家马德里。 现在,我们检查了更丰富的数据集,这将使我们能够说明
`groupby`
的更多功能。 此数据集还与足球相关,并提供了 2012-2013 赛季欧洲四大联赛的统计数据:
*
英超联赛或 EPL
*
西班牙
总理队
或西甲
*
西班牙
甲级联赛
或西甲
*
意大利甲级联赛
*
德国超级联赛或德甲联赛
...
...
docs/master-pandas/6.md
浏览文件 @
e86b655f
...
...
@@ -4,7 +4,7 @@
*
处理缺失的数据
*
处理时间序列和日期
*
使用
`matplotlib`
绘
制
*
使用
`matplotlib`
绘
图
到本章结束时,用户应该精通这些关键领域。
...
...
@@ -567,7 +567,7 @@ Out[140]: 1959-06-29 00:00:00 445
在这里,我们检查了一些滴答数据以用于重采样。 在检查数据之前,我们需要进行准备。 通过这样做,我们将学习一些有关时间序列数据的有用技术,如下所示:
*
时
代时
间戳
*
时间戳
*
时区处理
这是一个使用滴答数据作为 2014 年 5 月 27 日星期二的 Google 股票价格的示例:
...
...
docs/master-pandas/7.md
浏览文件 @
e86b655f
...
...
@@ -47,7 +47,7 @@
### 众数
众数是数据集中最频繁出现的值。 它通常用于
分类
数据,以便知道最常见的类别。 使用该众数的一个缺点是它不是唯一的。 具有两种众数的分布称为双峰分布,而具有多种众数的分布称为多峰分布。 这是一个双峰分布的示意图,其中众数分别为两个和七个,因为它们在数据集中都出现了四次:
众数是数据集中最频繁出现的值。 它通常用于
类别
数据,以便知道最常见的类别。 使用该众数的一个缺点是它不是唯一的。 具有两种众数的分布称为双峰分布,而具有多种众数的分布称为多峰分布。 这是一个双峰分布的示意图,其中众数分别为两个和七个,因为它们在数据集中都出现了四次:
```
py
In
[
4
]:
import
matplotlib.pyplot
as
plt
...
...
@@ -151,7 +151,7 @@ In [56]: plt.hist(salaries, bins=len(salaries))
### 注意
直方图实际上是数据的更好表示,因为条形图通常用于表示
分类
数据,而直方图是定量数据的首选,而薪金数据就是这种情况。
直方图实际上是数据的更好表示,因为条形图通常用于表示
类别
数据,而直方图是定量数据的首选,而薪金数据就是这种情况。
有关何时使用直方图和条形图的更多信息,请参见
[
这里
](
http://onforb.es/1Dru2gv
)
。
...
...
docs/master-pandas/8.md
浏览文件 @
e86b655f
...
...
@@ -7,7 +7,7 @@
*
概率分布
*
贝叶斯统计与频率统计
*
PyMC 和蒙特卡洛仿真简介
*
贝叶斯推理的
插图–
切换点检测
*
贝叶斯推理的
示例 –
切换点检测
# 贝叶斯统计概论
...
...
@@ -96,8 +96,8 @@
*
两个包含彩球
*
一个包含 50 个红色和 50 个蓝色球
*
n 包含 30 个红色和 70 个蓝色球
*
随机选择两个中的一个(概率为 50%
),然后从两个中的一个随机抽出一个球
*
n
个
包含 30 个红色和 70 个蓝色球
*
随机选择两个中的一个(概率为 50%),然后从两个中的一个随机抽出一个球
如果画了一个红色的球,那么它来自的概率是多少? 我们想要 !
[
Mathematical framework for Bayesian statistics
](
img/images_00091.jpeg
)
即 !
[
Mathematical framework for Bayesian statistics
](
img/images_00096.jpeg
)
。
...
...
docs/master-pandas/9.md
浏览文件 @
e86b655f
...
...
@@ -164,7 +164,7 @@
## Pandas `stats`
*
`api.py`
:这是一组便
捷
导入。
*
`api.py`
:这是一组便
利
导入。
*
`common.py`
:定义模块中其他功能调用的内部功能。
*
`fama_macbeth.py`
:包含 Fama-Macbeth 回归的类定义和函数。 有关 FM 回归的更多信息,请访问
[
这里
](
http://en.wikipedia.org/wiki/Fama-MacBeth_regression
)
。
*
`interface.py`
:它定义
`ols(..)`
,它返回
**普通最小二乘**
(
**OLS**
)回归对象。 它从
`pandas.stats.ols`
模块导入。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录