提交 4c54d685 编写于 作者: W wizardforcel

2021-03-11 23:01:08

上级 0d785b6a
......@@ -42,7 +42,7 @@
* IPython 4.0
* SciKit 0.16.1 模块
* statsmodels 0.6.1 模块
* matplotlib 1.4.3 库
* Matplotlib 1.4.3 库
* 带有 MRv1(MapReduce 版本 1)的 Apache Hadoop CDH4(Cloudera Hadoop 4)
* Apache Spark 1.4.0
......
......@@ -236,9 +236,9 @@ Pandas 库在 Python 世界中带来了 R 的丰富功能,可以处理数据
Pandas库本质上具有三个数据结构:
1.
1.
2. 数据帧
3. 控制
3.
### 序列
......@@ -290,10 +290,10 @@ dtype: int64
`DataFrame`是 2D 数据结构,其列可以具有不同的数据类型。 它可以看作是一张桌子。 一个`DataFrame`可以由以下数据结构组成:
* 一个 NumPy 数组
* 清单
* 1D NumPy 数组
* 列表
* 字典
*
*
* 2D NumPy 数组
可以通过调用以下命令从系列字典创建`DataFrame`
......
......@@ -47,13 +47,13 @@
* **产品增长**:以下是用于简化分析的问题:
* 就销售而言,增长最快的品牌是哪些
* 就销售而言,哪些是增长最快的品牌
* 就销量而言,哪些是增长最快的品牌?
* 哪个品牌的增长趋于平稳?
* **产品的季节性影响**:以下是用于简化分析的问题:
* 季节性有几个品牌
* 有几个品牌是季节性的
* 在季节性和非季节性期间,销售方面有何不同?
* 哪个假期为特定品牌带来了最大的销售额?
......@@ -173,8 +173,8 @@
这些是我们的观察结果:
* 幸存者的最大人数分别是一等和三等
* 对于每个班级的乘客总数,头等舱的最大幸存者约为 61%
* 幸存者的最大和最小人数分别是一等和三等
* 对于每个舱位的乘客总数,一等舱的幸存者最多,约为 61%
* 对于每个舱位的乘客总数,三等舱的幸存者人数最少,约为 25%
这是我们的主要收获:
......@@ -252,7 +252,7 @@
这些是我们的观察:
* 所有班级中大多数幸存者是女性
* 所有舱位中大多数幸存者是女性
* 头等舱和二等舱中超过 90% 的女性乘客幸存
* 在头等舱和三等舱中幸存下来的男性乘客百分比是可比的
......@@ -317,8 +317,8 @@
这些是我们的观察结果:
* 第三类中有很多非幸存者
* 二等人与亲属的非幸存者人数最少
* 三等舱中有很多非幸存者
* 二等舱中带亲属的非幸存者人数最少
* 就乘客总数而言,拥有亲属的头等舱的非幸存者比例最高,而三等舱的非幸存者比例最低。
这是我们的主要收获:
......
......@@ -5,8 +5,8 @@
在本章中,我们将讨论以下主题:
* 控制图的属性
* 结合多个地块
* 样式化地块
* 结合多个绘图
* 样式化绘图
* 创建各种高级可视化
# 控制图表的线属性
......
......@@ -103,7 +103,7 @@
以下是决策树的缺点:
1. 分类错误率高,而训练集比班级数少。
1. 分类错误率高,而训练集比类别数少。
2. 当数据和因变量的数量增加时,计算将呈指数增长。
3. 需要用于特定构造算法的离散数据。
......
......@@ -4,7 +4,7 @@
在上一章中,向您介绍了线性回归以及一个简单的线性回归示例。 在本章中,您将学习如何创建以下内容:
* 一个简单的线性回归模型
* 简单线性回归模型
* 多元线性回归模型
# 简单线性回归
......@@ -114,7 +114,7 @@ Coefficient value of the height is [ 1.00092142]
以下是数据的列描述:
* `height`:这是指以英尺为单位的高度
* `weight`指磅的重量
* `weight`以磅为单位的重量
* `success_field_goals`:这是指成功完成射门得分的百分比(尝试的 100 个目标中的百分比)
* `success_free_throws`:这是指成功罚球的百分比(尝试的 100 个罚球中的百分比)
* `avg_points_scored`:这是指每局平均得分
......@@ -139,7 +139,7 @@ Coefficient value of the height is [ 1.00092142]
4. 体重最轻的球员只有 105 磅,这是相当晦涩的。
5. 最重的球员是 263 磅。
6. 球员的最佳投篮命中率是 60%。
7. 球员最差的投篮命中率是 29%。
7. 球员的最差投篮命中率是 29%。
8. 一名球员的平均投篮命中率为 45%,但是从较小的标准差中,我们可以看到大多数球员的投篮命中率在 40% 至 50% 之间。
9. 在罚球中,有一位球员错过了 3/4 的时间。
10. 最佳罚球手的成功率达到 90%。
......
......@@ -19,7 +19,7 @@
* `Name`:这是指乘客的姓名
* `Sex`:这是指乘客的性别
* `Age`:这是指乘客的年龄
* `Sibsp`:指船上同级/配偶的数量
* `Sibsp`:指船上兄弟姐妹/配偶的数量
* `Parch`:这是指船上父母/子女的数量
* `Ticket`:这是票证编号
* `Fare`:这是指旅客票价
......
......@@ -8,7 +8,7 @@
* 处理有关美国收入的人口普查数据并浏览该数据
* 做出决策树以预测某人的收入是否超过 5 万美元
* 制作随机森林模型并获得改进的数据性能
* 制作随机森林模型并获得改进的数据表现
# 人口普查收入数据集
......
......@@ -8,7 +8,7 @@
* 从数据绘制词云
* 单词和句子分词
* 标记词性
* 词干和词条去除
* 词干提取和词形还原
* 应用斯坦福命名实体识别器
# 预处理数据
......@@ -20,7 +20,7 @@
我们将对数据执行以下操作:
* 删除标点符号
* 删除号码
* 删除数字
* 将文本转换为小写
* 删除英语中最常见的单词,称为停用词,例如`be``the``on`等。
......
......@@ -120,7 +120,7 @@ In: import matplotlib.pyplot as plt
![](img/2b8c923f-21c9-4f57-8145-7452ec93d4bf.png)
`subplot`命令接受`subplot(nrows, ncols, plot_number)`参数形式。 因此,在实例化时,它会基于`nrows``ncols`参数以及`plot_number`区域(从左侧的`1`区域开始)的地块数量为表示保留一定的空间。
`subplot`命令接受`subplot(nrows, ncols, plot_number)`参数形式。 因此,在实例化时,它会基于`nrows``ncols`参数以及`plot_number`区域(从左侧的`1`区域开始)的绘图数量为表示保留一定的空间。
您还可以将`plot`命令坐标与另一个字符串参数一起使用,这对于定义颜色和所表示曲线的类型很有用。 字符串通过组合您可以在以下链接上找到的代码来工作:
......
......@@ -12,7 +12,7 @@
图的引入和相关的图论在 1736 年被列昂哈德·欧拉(Leonhard Euler)研究[柯尼斯堡(Königsberg)七桥](https://en.wikipedia.org/wiki/Seven_Bridges_of_K%C3%B6nigsberg)
这座城市被普雷格尔河分开,普雷格尔河在某些时候形成了两个岛屿,并根据下图所示的布局建造了七座桥梁。 问题是找到一种方法让人们一次又一次地跨过每座桥,然后回到起点。 欧拉证明了这个问题没有解决方案,并且在此过程中诞生了图论。 基本思想是将城市图转换为一个图形,其中每个土地块都是一个顶点,每个桥都是连接两个顶点(即土地块)的边。 然后将问题简化为找到一条路径,该路径是边缘和顶点的连续序列,仅包含每个桥一次。
这座城市被普雷格尔河分开,普雷格尔河在某些时候形成了两个岛屿,并根据下图所示的布局建造了七座桥梁。 问题是找到一种方法让人们一次又一次地跨过每座桥,然后回到起点。 欧拉证明了这个问题没有解决方案,并且在此过程中诞生了图论。 基本思想是将城市图转换为一个图形,其中每个土绘图都是一个顶点,每个桥都是连接两个顶点(即土绘图)的边。 然后将问题简化为找到一条路径,该路径是边缘和顶点的连续序列,仅包含每个桥一次。
下图显示了欧拉如何将*柯尼斯堡七桥*问题简化为图形问题:
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册