提交 96bdc9a7 编写于 作者: W wizardforcel

2021-02-22 22:01:04

上级 c9c2c66a
......@@ -2,7 +2,7 @@
Logistic 回归是一种回归分析,可帮助您根据某些给定参数估算事件发生的可能性。 它用作具有二进制结果的分类技术。 使用逻辑函数,根据解释性变量(预测变量)对描述单个试验可能结果的概率进行建模。
在第 5 章*发现机器学习*中,已经向您介绍了 *Logisitc 回归*。 在本章中,您将学习:
在第 5 章“发现机器学习”中,已经向您介绍了 *Logisitc 回归*。 在本章中,您将学习:
* 使用 statsmodels 建立逻辑回归模型
* 使用 SciKit 建立逻辑回归模型
......@@ -10,21 +10,21 @@ Logistic 回归是一种回归分析,可帮助您根据某些给定参数估
# Logistic 回归
我们将使用 Titanic 数据集,该数据集在第 3 章*在干草堆中查找针*中使用,以帮助我们建立逻辑回归模型。 由于我们已经探索了数据,因此我们将不进行任何探索性数据分析,因为我们已经有了该数据的上下文。
我们将使用 Titanic 数据集,该数据集在第 3 章“在干草堆中查找针”中使用,以帮助我们建立逻辑回归模型。 由于我们已经探索了数据,因此我们将不进行任何探索性数据分析,因为我们已经有了该数据的上下文。
这是泰坦尼克号数据集的字段描述的回顾:
* **生存**:这是指乘客的生存(`0` =否,`1` =是)
* **Pclass**:这指的是乘客等级(`1` = 1st,`2` = 2nd,`3` = 3rd)
* **名称**:这是指乘客的姓名
* **性别**:这是指乘客的性别
* **年龄**:这是指乘客的年龄
* **兄弟姐妹**:指船上同级/配偶的数量
* **Parch**:这是指船上父母/子女的数量
* **票证**:这是票证编号
* **票价**:这是指旅客票价
* **客舱**:这是指客舱
* **登上**:此是指登船港口(C =瑟堡,Q =皇后镇,S =南安普敦)
* `Survival`:这是指乘客的生存(`0` =否,`1` =是)
* `Pclass`:这指的是乘客等级(`1` = 1st,`2` = 2nd,`3` = 3rd)
* `Name`:这是指乘客的姓名
* `Sex`:这是指乘客的性别
* `Age`:这是指乘客的年龄
* `Sibsp`:指船上同级/配偶的数量
* `Parch`:这是指船上父母/子女的数量
* `Ticket`:这是票证编号
* `Fare`:这是指旅客票价
* `Cabin`:这是指客舱
* `Embarked`:此是指登船港口(C =瑟堡,Q =皇后镇,S =南安普敦)
## 数据准备
......@@ -137,7 +137,7 @@ Logistic 回归是一种回归分析,可帮助您根据某些给定参数估
![Model evaluation](img/B03450_07_04.jpg)
从前面的图中可以看出,在`0``1`的概率附近密度较高,这是一个好兆头,表明该模型能够根据给定的数据预测某些模式。 这也表明密度是最高的,接近 0,这意味着很多人无法生存。 这证明了我们在第 3 章和*在干草堆中寻找针头*中执行的分析。
从前面的图中可以看出,在`0``1`的概率附近密度较高,这是一个好兆头,表明该模型能够根据给定的数据预测某些模式。 这也表明密度是最高的,接近 0,这意味着很多人无法生存。 这证明了我们在第 3 章和“在干草堆中寻找针”中执行的分析。
让我们看看基于男性的预测分布:
......@@ -154,7 +154,7 @@ Logistic 回归是一种回归分析,可帮助您根据某些给定参数估
![Model evaluation](img/B03450_07_05.jpg)
我们可以看到,模型预测表明,如果乘客是男性,那么与女性相比,生存机会要低。 我们的分析在第 3 章和*在干草堆中寻找针头*中也显示了这一点,其中发现女性的成活率更高。
我们可以看到,模型预测表明,如果乘客是男性,那么与女性相比,生存机会要低。 我们的分析在第 3 章和“在干草堆中寻找针”中也显示了这一点,其中发现女性的成活率更高。
现在,让我们看一下基于下层乘客的预测分布:
......@@ -234,9 +234,9 @@ Logistic 回归是一种回归分析,可帮助您根据某些给定参数估
让我们了解精确度和召回率的含义。
* **精度**:精度告诉您,在 0 类或 1 类的所有预测中,有多少个已正确预测。 因此,在上述情况下,非幸存者的预测的 76% 是正确的,而幸存者的预测的 100% 是正确的。
* **调用**:调用告诉您,在实际实例中,有多少个已正确预测。 因此,在上述情况下,所有未幸存的人都可以 100% 的准确度正确预测,但是在所有幸存的人中,只有 53% 的人被正确预测了。
* **召回**:召回告诉您,在实际实例中,有多少个已正确预测。 因此,在上述情况下,所有未幸存的人都可以 100% 的准确度正确预测,但是在所有幸存的人中,只有 53% 的人被正确预测了。
让我们绘制**接收器工作特性****ROC**)曲线,其解释如下:
让我们绘制**受试者工作特性****ROC**)曲线,其解释如下:
```py
>>> # Compute ROC curve and area the curve
......
......@@ -162,7 +162,7 @@ movie_user_preferences['William']['Gone Girl']
## 皮尔森相关评分
我们已经在第 2 章,*推断统计*中研究了皮尔逊相关性。 欧几里得距离是用户彼此分开的距离,而 Pearson 相关性考虑了两个人之间的关联。 我们将使用 Pearson 相关性来计算两个用户之间的相似度得分。
我们已经在第 2 章,“推断统计”中研究了皮尔逊相关性。 欧几里得距离是用户彼此分开的距离,而 Pearson 相关性考虑了两个人之间的关联。 我们将使用 Pearson 相关性来计算两个用户之间的相似度得分。
让我们看看`Sam``Toby`如何相互关联:
......
......@@ -307,7 +307,7 @@ dtype: float64
# 决策树
为了了解基于决策树的模型,让我们尝试想象 Google 希望招募人员从事软件开发工作。 根据他们已有的员工和先前拒绝的员工,我们可以确定申请人是否来自常春藤大学,以及**平均绩点****GPA** 是多少) )
为了了解基于决策树的模型,让我们尝试想象 Google 希望招募人员从事软件开发工作。 根据他们已有的员工和先前拒绝的员工,我们可以确定申请人是否来自常春藤大学,以及**平均绩点****GPA**)是多少
决策树会将申请人分为常春藤联盟和非常春藤联盟。 然后将常春藤盟军分为高 GPA 和低 GPA,这样高 GPA 的人很可能被高标签,而 GPA 低的人则可能被招募。
......
......@@ -15,7 +15,7 @@ k 均值聚类算法通过计算特征的平均值(例如我们用于聚类的
我们如何选择`K`? 如果我们对所要寻找的东西有所了解,或者期望或想要多少个集群,则可以在启动引擎并进行算法计算之前将`K`设置为该数字。
如果我们不知道有多少个集群,那么我们的探索将花费更长的时间并涉及一些反复试验,例如,当我们尝试 *K = 3* `4`时, 和`5`
如果我们不知道有多少个集群,那么我们的探索将花费更长的时间并涉及一些反复试验,例如,当我们尝试`K = 3``4`时, 和`5`
k 均值算法是迭代的。 首先从数据中随机选择`K`点,然后将它们用作聚类中心。 然后,在每个迭代步骤中,此算法都会确定哪些行值最接近聚类中心,并为其分配`K`点。
......@@ -308,7 +308,7 @@ dtype: float64
数组中的每个值都是平方的平均和,该平方具有一个群集到一组十个群集。
现在,我们使用以下数据绘制 k 均值聚类的**弯头** **曲线**(这是曲线开始展平的点):
现在,我们使用以下数据绘制 k 均值聚类的**肘形曲线**(这是曲线开始展平的点):
```py
>>> #Choosing the cluster number
......
......@@ -195,7 +195,7 @@ $ pip install git+git://github.com/amueller/word_cloud.git
# 单词和句子标记化
我们之前已经处理过单词标记化,但是我们可以使用 NLTK 以及句子标记化来执行此操作,这非常棘手,因为英语中有用于缩写和其他目的的句点符号。 幸运的是,句子标记器是`nltk``tokenize.punkt`模块中 **PunktSentenceTokenizer** 的实例,该模块有助于标记句子。
我们之前已经处理过单词标记化,但是我们可以使用 NLTK 以及句子标记化来执行此操作,这非常棘手,因为英语中有用于缩写和其他目的的句点符号。 幸运的是,句子标记器是`nltk``tokenize.punkt`模块中`PunktSentenceTokenizer`的实例,该模块有助于标记句子。
让我们看一下使用以下代码的单词标记化:
......
......@@ -4,9 +4,9 @@
大数据有三个 V,它们的定义如下:
* ****:此定义数据的大小。 Facebook 拥有数 PB 的用户数据。
* **Velocity**:这是生成数据的速率。
* **品种**:数据不是仅表格形式的。 我们可以从文本,图像和声音中获取数据。 数据也以 JSON,XML 和其他类型的形式出现。
* **容量**:此定义数据的大小。 Facebook 拥有数 PB 的用户数据。
* **速度**:这是生成数据的速率。
* **种类**:数据不是仅表格形式的。 我们可以从文本,图像和声音中获取数据。 数据也以 JSON,XML 和其他类型的形式出现。
让我们看一下以下屏幕截图:
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册