Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
apachecn-ds-zh
提交
96bdc9a7
A
apachecn-ds-zh
项目概览
OpenDocCN
/
apachecn-ds-zh
大约 1 年 前同步成功
通知
1
Star
287
Fork
69
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-ds-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
96bdc9a7
编写于
2月 22, 2021
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2021-02-22 22:01:04
上级
c9c2c66a
变更
6
隐藏空白更改
内联
并排
Showing
6 changed file
with
25 addition
and
25 deletion
+25
-25
new/master-py-ds/07.md
new/master-py-ds/07.md
+17
-17
new/master-py-ds/08.md
new/master-py-ds/08.md
+1
-1
new/master-py-ds/09.md
new/master-py-ds/09.md
+1
-1
new/master-py-ds/10.md
new/master-py-ds/10.md
+2
-2
new/master-py-ds/11.md
new/master-py-ds/11.md
+1
-1
new/master-py-ds/12.md
new/master-py-ds/12.md
+3
-3
未找到文件。
new/master-py-ds/07.md
浏览文件 @
96bdc9a7
...
...
@@ -2,7 +2,7 @@
Logistic 回归是一种回归分析,可帮助您根据某些给定参数估算事件发生的可能性。 它用作具有二进制结果的分类技术。 使用逻辑函数,根据解释性变量(预测变量)对描述单个试验可能结果的概率进行建模。
在第 5 章
和
*发现机器学习*
中,已经向您介绍了
*Logisitc 回归*
。 在本章中,您将学习:
在第 5 章
“发现机器学习”
中,已经向您介绍了
*Logisitc 回归*
。 在本章中,您将学习:
*
使用 statsmodels 建立逻辑回归模型
*
使用 SciKit 建立逻辑回归模型
...
...
@@ -10,21 +10,21 @@ Logistic 回归是一种回归分析,可帮助您根据某些给定参数估
# Logistic 回归
我们将使用 Titanic 数据集,该数据集在第 3 章
和
*在干草堆中查找针*
中使用,以帮助我们建立逻辑回归模型。 由于我们已经探索了数据,因此我们将不进行任何探索性数据分析,因为我们已经有了该数据的上下文。
我们将使用 Titanic 数据集,该数据集在第 3 章
“在干草堆中查找针”
中使用,以帮助我们建立逻辑回归模型。 由于我们已经探索了数据,因此我们将不进行任何探索性数据分析,因为我们已经有了该数据的上下文。
这是泰坦尼克号数据集的字段描述的回顾:
*
**生存**
:这是指乘客的生存(
`0`
=否,
`1`
=是)
*
**Pclass**
:这指的是乘客等级(
`1`
= 1st,
`2`
= 2nd,
`3`
= 3rd)
*
**名称**
:这是指乘客的姓名
*
**性别**
:这是指乘客的性别
*
**年龄**
:这是指乘客的年龄
*
**兄弟姐妹**
:指船上同级/配偶的数量
*
**Parch**
:这是指船上父母/子女的数量
*
**票证**
:这是票证编号
*
**票价**
:这是指旅客票价
*
**客舱**
:这是指客舱
*
**登上**
:此是指登船港口(C =瑟堡,Q =皇后镇,S =南安普敦)
*
`Survival`
:这是指乘客的生存(
`0`
=否,
`1`
=是)
*
`Pclass`
:这指的是乘客等级(
`1`
= 1st,
`2`
= 2nd,
`3`
= 3rd)
*
`Name`
:这是指乘客的姓名
*
`Sex`
:这是指乘客的性别
*
`Age`
:这是指乘客的年龄
*
`Sibsp`
:指船上同级/配偶的数量
*
`Parch`
:这是指船上父母/子女的数量
*
`Ticket`
:这是票证编号
*
`Fare`
:这是指旅客票价
*
`Cabin`
:这是指客舱
*
`Embarked`
:此是指登船港口(C =瑟堡,Q =皇后镇,S =南安普敦)
## 数据准备
...
...
@@ -137,7 +137,7 @@ Logistic 回归是一种回归分析,可帮助您根据某些给定参数估
![
Model evaluation
](
img/B03450_07_04.jpg
)
从前面的图中可以看出,在
`0`
和
`1`
的概率附近密度较高,这是一个好兆头,表明该模型能够根据给定的数据预测某些模式。 这也表明密度是最高的,接近 0,这意味着很多人无法生存。 这证明了我们在第 3 章和
*在干草堆中寻找针头*
中执行的分析。
从前面的图中可以看出,在
`0`
和
`1`
的概率附近密度较高,这是一个好兆头,表明该模型能够根据给定的数据预测某些模式。 这也表明密度是最高的,接近 0,这意味着很多人无法生存。 这证明了我们在第 3 章和
“在干草堆中寻找针”
中执行的分析。
让我们看看基于男性的预测分布:
...
...
@@ -154,7 +154,7 @@ Logistic 回归是一种回归分析,可帮助您根据某些给定参数估
![
Model evaluation
](
img/B03450_07_05.jpg
)
我们可以看到,模型预测表明,如果乘客是男性,那么与女性相比,生存机会要低。 我们的分析在第 3 章和
*在干草堆中寻找针头*
中也显示了这一点,其中发现女性的成活率更高。
我们可以看到,模型预测表明,如果乘客是男性,那么与女性相比,生存机会要低。 我们的分析在第 3 章和
“在干草堆中寻找针”
中也显示了这一点,其中发现女性的成活率更高。
现在,让我们看一下基于下层乘客的预测分布:
...
...
@@ -234,9 +234,9 @@ Logistic 回归是一种回归分析,可帮助您根据某些给定参数估
让我们了解精确度和召回率的含义。
*
**精度**
:精度告诉您,在 0 类或 1 类的所有预测中,有多少个已正确预测。 因此,在上述情况下,非幸存者的预测的 76% 是正确的,而幸存者的预测的 100% 是正确的。
*
**
调用**
:调用
告诉您,在实际实例中,有多少个已正确预测。 因此,在上述情况下,所有未幸存的人都可以 100% 的准确度正确预测,但是在所有幸存的人中,只有 53% 的人被正确预测了。
*
**
召回**
:召回
告诉您,在实际实例中,有多少个已正确预测。 因此,在上述情况下,所有未幸存的人都可以 100% 的准确度正确预测,但是在所有幸存的人中,只有 53% 的人被正确预测了。
让我们绘制
**
接收器
工作特性**
(
**ROC**
)曲线,其解释如下:
让我们绘制
**
受试者
工作特性**
(
**ROC**
)曲线,其解释如下:
```
py
>>>
# Compute ROC curve and area the curve
...
...
new/master-py-ds/08.md
浏览文件 @
96bdc9a7
...
...
@@ -162,7 +162,7 @@ movie_user_preferences['William']['Gone Girl']
## 皮尔森相关评分
我们已经在第 2 章,
*推断统计*
中研究了皮尔逊相关性。 欧几里得距离是用户彼此分开的距离,而 Pearson 相关性考虑了两个人之间的关联。 我们将使用 Pearson 相关性来计算两个用户之间的相似度得分。
我们已经在第 2 章,
“推断统计”
中研究了皮尔逊相关性。 欧几里得距离是用户彼此分开的距离,而 Pearson 相关性考虑了两个人之间的关联。 我们将使用 Pearson 相关性来计算两个用户之间的相似度得分。
让我们看看
`Sam`
和
`Toby`
如何相互关联:
...
...
new/master-py-ds/09.md
浏览文件 @
96bdc9a7
...
...
@@ -307,7 +307,7 @@ dtype: float64
# 决策树
为了了解基于决策树的模型,让我们尝试想象 Google 希望招募人员从事软件开发工作。 根据他们已有的员工和先前拒绝的员工,我们可以确定申请人是否来自常春藤大学,以及
**平均绩点**
(
**GPA**
是多少) )
。
为了了解基于决策树的模型,让我们尝试想象 Google 希望招募人员从事软件开发工作。 根据他们已有的员工和先前拒绝的员工,我们可以确定申请人是否来自常春藤大学,以及
**平均绩点**
(
**GPA**
)是多少
。
决策树会将申请人分为常春藤联盟和非常春藤联盟。 然后将常春藤盟军分为高 GPA 和低 GPA,这样高 GPA 的人很可能被高标签,而 GPA 低的人则可能被招募。
...
...
new/master-py-ds/10.md
浏览文件 @
96bdc9a7
...
...
@@ -15,7 +15,7 @@ k 均值聚类算法通过计算特征的平均值(例如我们用于聚类的
我们如何选择
`K`
? 如果我们对所要寻找的东西有所了解,或者期望或想要多少个集群,则可以在启动引擎并进行算法计算之前将
`K`
设置为该数字。
如果我们不知道有多少个集群,那么我们的探索将花费更长的时间并涉及一些反复试验,例如,当我们尝试
*K = 3*
,
`4`
时, 和
`5`
。
如果我们不知道有多少个集群,那么我们的探索将花费更长的时间并涉及一些反复试验,例如,当我们尝试
`K = 3`
,
`4`
时, 和
`5`
。
k 均值算法是迭代的。 首先从数据中随机选择
`K`
点,然后将它们用作聚类中心。 然后,在每个迭代步骤中,此算法都会确定哪些行值最接近聚类中心,并为其分配
`K`
点。
...
...
@@ -308,7 +308,7 @@ dtype: float64
数组中的每个值都是平方的平均和,该平方具有一个群集到一组十个群集。
现在,我们使用以下数据绘制 k 均值聚类的
**
弯头**
**
曲线**
(这是曲线开始展平的点):
现在,我们使用以下数据绘制 k 均值聚类的
**
肘形
曲线**
(这是曲线开始展平的点):
```
py
>>>
#Choosing the cluster number
...
...
new/master-py-ds/11.md
浏览文件 @
96bdc9a7
...
...
@@ -195,7 +195,7 @@ $ pip install git+git://github.com/amueller/word_cloud.git
# 单词和句子标记化
我们之前已经处理过单词标记化,但是我们可以使用 NLTK 以及句子标记化来执行此操作,这非常棘手,因为英语中有用于缩写和其他目的的句点符号。 幸运的是,句子标记器是
`nltk`
的
`tokenize.punkt`
模块中
**PunktSentenceTokenizer**
的实例,该模块有助于标记句子。
我们之前已经处理过单词标记化,但是我们可以使用 NLTK 以及句子标记化来执行此操作,这非常棘手,因为英语中有用于缩写和其他目的的句点符号。 幸运的是,句子标记器是
`nltk`
的
`tokenize.punkt`
模块中
`PunktSentenceTokenizer`
的实例,该模块有助于标记句子。
让我们看一下使用以下代码的单词标记化:
...
...
new/master-py-ds/12.md
浏览文件 @
96bdc9a7
...
...
@@ -4,9 +4,9 @@
大数据有三个 V,它们的定义如下:
*
**
卷
**
:此定义数据的大小。 Facebook 拥有数 PB 的用户数据。
*
**
Velocity
**
:这是生成数据的速率。
*
**
品种
**
:数据不是仅表格形式的。 我们可以从文本,图像和声音中获取数据。 数据也以 JSON,XML 和其他类型的形式出现。
*
**
容量
**
:此定义数据的大小。 Facebook 拥有数 PB 的用户数据。
*
**
速度
**
:这是生成数据的速率。
*
**
种类
**
:数据不是仅表格形式的。 我们可以从文本,图像和声音中获取数据。 数据也以 JSON,XML 和其他类型的形式出现。
让我们看一下以下屏幕截图:
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录