Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
apachecn-ds-zh
提交
4c54d685
A
apachecn-ds-zh
项目概览
OpenDocCN
/
apachecn-ds-zh
大约 1 年 前同步成功
通知
1
Star
287
Fork
69
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-ds-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
4c54d685
编写于
3月 11, 2021
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2021-03-11 23:01:08
上级
0d785b6a
变更
11
隐藏空白更改
内联
并排
Showing
11 changed file
with
25 addition
and
25 deletion
+25
-25
new/master-py-ds/00.md
new/master-py-ds/00.md
+1
-1
new/master-py-ds/01.md
new/master-py-ds/01.md
+5
-5
new/master-py-ds/03.md
new/master-py-ds/03.md
+7
-7
new/master-py-ds/04.md
new/master-py-ds/04.md
+2
-2
new/master-py-ds/05.md
new/master-py-ds/05.md
+1
-1
new/master-py-ds/06.md
new/master-py-ds/06.md
+3
-3
new/master-py-ds/07.md
new/master-py-ds/07.md
+1
-1
new/master-py-ds/09.md
new/master-py-ds/09.md
+1
-1
new/master-py-ds/11.md
new/master-py-ds/11.md
+2
-2
new/py-ds-essentials/5.md
new/py-ds-essentials/5.md
+1
-1
new/thoughtful-ds/09.md
new/thoughtful-ds/09.md
+1
-1
未找到文件。
new/master-py-ds/00.md
浏览文件 @
4c54d685
...
...
@@ -42,7 +42,7 @@
*
IPython 4.0
*
SciKit 0.16.1 模块
*
statsmodels 0.6.1 模块
*
m
atplotlib 1.4.3 库
*
M
atplotlib 1.4.3 库
*
带有 MRv1(MapReduce 版本 1)的 Apache Hadoop CDH4(Cloudera Hadoop 4)
*
Apache Spark 1.4.0
...
...
new/master-py-ds/01.md
浏览文件 @
4c54d685
...
...
@@ -236,9 +236,9 @@ Pandas 库在 Python 世界中带来了 R 的丰富功能,可以处理数据
Pandas库本质上具有三个数据结构:
1.
系
列
1.
序
列
2.
数据帧
3.
控制
板
3.
面
板
### 序列
...
...
@@ -290,10 +290,10 @@ dtype: int64
`DataFrame`
是 2D 数据结构,其列可以具有不同的数据类型。 它可以看作是一张桌子。 一个
`DataFrame`
可以由以下数据结构组成:
*
一个
NumPy 数组
*
清单
*
1D
NumPy 数组
*
列表
*
字典
*
系
列
*
序
列
*
2D NumPy 数组
可以通过调用以下命令从系列字典创建
`DataFrame`
:
...
...
new/master-py-ds/03.md
浏览文件 @
4c54d685
...
...
@@ -47,13 +47,13 @@
*
**产品增长**
:以下是用于简化分析的问题:
* 就销售而言,
增长最快的品牌是哪些
?
* 就销售而言,
哪些是增长最快的品牌
?
* 就销量而言,哪些是增长最快的品牌?
* 哪个品牌的增长趋于平稳?
*
**产品的季节性影响**
:以下是用于简化分析的问题:
*
季节性有几个品牌
?
*
有几个品牌是季节性的
?
* 在季节性和非季节性期间,销售方面有何不同?
* 哪个假期为特定品牌带来了最大的销售额?
...
...
@@ -173,8 +173,8 @@
这些是我们的观察结果:
*
幸存者的最大人数分别是一等和三等
*
对于每个
班级的乘客总数,头等舱的最大幸存者
约为 61%
*
幸存者的最大
和最小
人数分别是一等和三等
*
对于每个
舱位的乘客总数,一等舱的幸存者最多,
约为 61%
*
对于每个舱位的乘客总数,三等舱的幸存者人数最少,约为 25%
这是我们的主要收获:
...
...
@@ -252,7 +252,7 @@
这些是我们的观察:
*
所有
班级
中大多数幸存者是女性
*
所有
舱位
中大多数幸存者是女性
*
头等舱和二等舱中超过 90% 的女性乘客幸存
*
在头等舱和三等舱中幸存下来的男性乘客百分比是可比的
...
...
@@ -317,8 +317,8 @@
这些是我们的观察结果:
*
第三类
中有很多非幸存者
*
二等
人与
亲属的非幸存者人数最少
*
三等舱
中有很多非幸存者
*
二等
舱中带
亲属的非幸存者人数最少
*
就乘客总数而言,拥有亲属的头等舱的非幸存者比例最高,而三等舱的非幸存者比例最低。
这是我们的主要收获:
...
...
new/master-py-ds/04.md
浏览文件 @
4c54d685
...
...
@@ -5,8 +5,8 @@
在本章中,我们将讨论以下主题:
*
控制图的属性
*
结合多个
地块
*
样式化
地块
*
结合多个
绘图
*
样式化
绘图
*
创建各种高级可视化
# 控制图表的线属性
...
...
new/master-py-ds/05.md
浏览文件 @
4c54d685
...
...
@@ -103,7 +103,7 @@
以下是决策树的缺点:
1.
分类错误率高,而训练集比
班级
数少。
1.
分类错误率高,而训练集比
类别
数少。
2.
当数据和因变量的数量增加时,计算将呈指数增长。
3.
需要用于特定构造算法的离散数据。
...
...
new/master-py-ds/06.md
浏览文件 @
4c54d685
...
...
@@ -4,7 +4,7 @@
在上一章中,向您介绍了线性回归以及一个简单的线性回归示例。 在本章中,您将学习如何创建以下内容:
*
一个简单的
线性回归模型
*
简单
线性回归模型
*
多元线性回归模型
# 简单线性回归
...
...
@@ -114,7 +114,7 @@ Coefficient value of the height is [ 1.00092142]
以下是数据的列描述:
*
`height`
:这是指以英尺为单位的高度
*
`weight`
:
指磅
的重量
*
`weight`
:
以磅为单位
的重量
*
`success_field_goals`
:这是指成功完成射门得分的百分比(尝试的 100 个目标中的百分比)
*
`success_free_throws`
:这是指成功罚球的百分比(尝试的 100 个罚球中的百分比)
*
`avg_points_scored`
:这是指每局平均得分
...
...
@@ -139,7 +139,7 @@ Coefficient value of the height is [ 1.00092142]
4.
体重最轻的球员只有 105 磅,这是相当晦涩的。
5.
最重的球员是 263 磅。
6.
球员的最佳投篮命中率是 60%。
7.
球员
最差的
投篮命中率是 29%。
7.
球员
的最差
投篮命中率是 29%。
8.
一名球员的平均投篮命中率为 45%,但是从较小的标准差中,我们可以看到大多数球员的投篮命中率在 40% 至 50% 之间。
9.
在罚球中,有一位球员错过了 3/4 的时间。
10.
最佳罚球手的成功率达到 90%。
...
...
new/master-py-ds/07.md
浏览文件 @
4c54d685
...
...
@@ -19,7 +19,7 @@
*
`Name`
:这是指乘客的姓名
*
`Sex`
:这是指乘客的性别
*
`Age`
:这是指乘客的年龄
*
`Sibsp`
:指船上
同级
/配偶的数量
*
`Sibsp`
:指船上
兄弟姐妹
/配偶的数量
*
`Parch`
:这是指船上父母/子女的数量
*
`Ticket`
:这是票证编号
*
`Fare`
:这是指旅客票价
...
...
new/master-py-ds/09.md
浏览文件 @
4c54d685
...
...
@@ -8,7 +8,7 @@
*
处理有关美国收入的人口普查数据并浏览该数据
*
做出决策树以预测某人的收入是否超过 5 万美元
*
制作随机森林模型并获得改进的数据
性能
*
制作随机森林模型并获得改进的数据
表现
# 人口普查收入数据集
...
...
new/master-py-ds/11.md
浏览文件 @
4c54d685
...
...
@@ -8,7 +8,7 @@
*
从数据绘制词云
*
单词和句子分词
*
标记词性
*
词干
和词条去除
*
词干
提取和词形还原
*
应用斯坦福命名实体识别器
# 预处理数据
...
...
@@ -20,7 +20,7 @@
我们将对数据执行以下操作:
*
删除标点符号
*
删除
号码
*
删除
数字
*
将文本转换为小写
*
删除英语中最常见的单词,称为停用词,例如
`be`
,
`the`
,
`on`
等。
...
...
new/py-ds-essentials/5.md
浏览文件 @
4c54d685
...
...
@@ -120,7 +120,7 @@ In: import matplotlib.pyplot as plt
![](
img/2b8c923f-21c9-4f57-8145-7452ec93d4bf.png
)
`subplot`
命令接受
`subplot(nrows, ncols, plot_number)`
参数形式。 因此,在实例化时,它会基于
`nrows`
和
`ncols`
参数以及
`plot_number`
区域(从左侧的
`1`
区域开始)的
地块
数量为表示保留一定的空间。
`subplot`
命令接受
`subplot(nrows, ncols, plot_number)`
参数形式。 因此,在实例化时,它会基于
`nrows`
和
`ncols`
参数以及
`plot_number`
区域(从左侧的
`1`
区域开始)的
绘图
数量为表示保留一定的空间。
您还可以将
`plot`
命令坐标与另一个字符串参数一起使用,这对于定义颜色和所表示曲线的类型很有用。 字符串通过组合您可以在以下链接上找到的代码来工作:
...
...
new/thoughtful-ds/09.md
浏览文件 @
4c54d685
...
...
@@ -12,7 +12,7 @@
图的引入和相关的图论在 1736 年被列昂哈德·欧拉(Leonhard Euler)研究
[
柯尼斯堡(Königsberg)七桥
](
https://en.wikipedia.org/wiki/Seven_Bridges_of_K%C3%B6nigsberg
)
。
这座城市被普雷格尔河分开,普雷格尔河在某些时候形成了两个岛屿,并根据下图所示的布局建造了七座桥梁。 问题是找到一种方法让人们一次又一次地跨过每座桥,然后回到起点。 欧拉证明了这个问题没有解决方案,并且在此过程中诞生了图论。 基本思想是将城市图转换为一个图形,其中每个土
地块都是一个顶点,每个桥都是连接两个顶点(即土地块
)的边。 然后将问题简化为找到一条路径,该路径是边缘和顶点的连续序列,仅包含每个桥一次。
这座城市被普雷格尔河分开,普雷格尔河在某些时候形成了两个岛屿,并根据下图所示的布局建造了七座桥梁。 问题是找到一种方法让人们一次又一次地跨过每座桥,然后回到起点。 欧拉证明了这个问题没有解决方案,并且在此过程中诞生了图论。 基本思想是将城市图转换为一个图形,其中每个土
绘图都是一个顶点,每个桥都是连接两个顶点(即土绘图
)的边。 然后将问题简化为找到一条路径,该路径是边缘和顶点的连续序列,仅包含每个桥一次。
下图显示了欧拉如何将
*柯尼斯堡七桥*
问题简化为图形问题:
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录