Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
apachecn-ds-zh
提交
c9c2c66a
A
apachecn-ds-zh
项目概览
OpenDocCN
/
apachecn-ds-zh
大约 1 年 前同步成功
通知
1
Star
287
Fork
69
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-ds-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
c9c2c66a
编写于
2月 22, 2021
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2021-02-22 21:57:24
上级
71928801
变更
8
隐藏空白更改
内联
并排
Showing
8 changed file
with
77 addition
and
67 deletion
+77
-67
new/master-py-ds/00.md
new/master-py-ds/00.md
+13
-13
new/master-py-ds/01.md
new/master-py-ds/01.md
+7
-7
new/master-py-ds/02.md
new/master-py-ds/02.md
+20
-14
new/master-py-ds/04.md
new/master-py-ds/04.md
+8
-8
new/master-py-ds/05.md
new/master-py-ds/05.md
+23
-21
new/master-py-ds/06.md
new/master-py-ds/06.md
+4
-2
new/master-py-ds/08.md
new/master-py-ds/08.md
+1
-1
new/thoughtful-ds/01.md
new/thoughtful-ds/01.md
+1
-1
未找到文件。
new/master-py-ds/00.md
浏览文件 @
c9c2c66a
...
...
@@ -6,29 +6,29 @@
# 这本书涵盖的内容
第 1 章和
*原始数据入门*
教给您处理无组织数据的技术。 您还将学习如何从不同来源提取数据,以及如何清理和处理数据。
第 1 章和
“原始数据入门”
教给您处理无组织数据的技术。 您还将学习如何从不同来源提取数据,以及如何清理和处理数据。
第 2 章和
*推论统计*
超出了描述统计,您将在其中了解推论
统计的概念,例如分布,不同的统计检验,统计检验中的错误以及置信区间 。
第 2 章和
“推断统计”超出了描述统计,您将在其中了解推断
统计的概念,例如分布,不同的统计检验,统计检验中的错误以及置信区间 。
第 3 章和
*在干草堆中找针*
解释了什么是数据挖掘以及如何利用它。 数据中包含很多信息,但是找到有意义的信息是一门艺术。
第 3 章和
“在干草堆中找针”
解释了什么是数据挖掘以及如何利用它。 数据中包含很多信息,但是找到有意义的信息是一门艺术。
第 4 章和
*通过高级可视化*
来了解数据
,教您如何创建不同的数据可视化。 可视化是数据科学不可或缺的一部分; 它有助于传达无法通过查看原始数据看到的模式或关系。
第 4 章和
“通过高级可视化来了解数据”
,教您如何创建不同的数据可视化。 可视化是数据科学不可或缺的一部分; 它有助于传达无法通过查看原始数据看到的模式或关系。
第 5 章和
*揭露机器学习*
,向您介绍机器学习的不同技术以及如何应用它们。 机器学习是业界新的流行语。 它用于 Google 的无人驾驶汽车等活动,并预测营销活动的有效性。
第 5 章和
“揭秘机器学习”
,向您介绍机器学习的不同技术以及如何应用它们。 机器学习是业界新的流行语。 它用于 Google 的无人驾驶汽车等活动,并预测营销活动的有效性。
第 6 章和
*使用线性回归*
执行预测
可帮助您建立简单的回归模型,然后建立多个回归模型以及测试模型有效性的方法。 线性回归是当今业界用于模型构建的最流行技术之一。
第 6 章和
“使用线性回归执行预测”
可帮助您建立简单的回归模型,然后建立多个回归模型以及测试模型有效性的方法。 线性回归是当今业界用于模型构建的最流行技术之一。
第 7 章和
*估计事件的可能性*
教您如何建立逻辑回归模型以及评估它的不同技术。 使用逻辑回归,您将能够学习如何估算事件发生的可能性。
第 7 章和
“估计事件的可能性”
教您如何建立逻辑回归模型以及评估它的不同技术。 使用逻辑回归,您将能够学习如何估算事件发生的可能性。
第 8 章和
*通过协作过滤生成建议*
教您创建并应用推荐模型。 它类似于网站(例如 Amazon),该网站能够建议您可能会在其页面上购买的商品。
第 8 章和
“通过协作过滤生成建议”
教您创建并应用推荐模型。 它类似于网站(例如 Amazon),该网站能够建议您可能会在其页面上购买的商品。
第 9 章和
*使用集合模型推展边界*
使您熟悉集成技术,该技术用于组合多个模型的功能以增强预测的准确性。 这样做是因为有时单个模型不足以估计结果。
第 9 章和
“使用集成模型推展边界”
使您熟悉集成技术,该技术用于组合多个模型的功能以增强预测的准确性。 这样做是因为有时单个模型不足以估计结果。
第 10 章和
*将分段与 k-means 聚类一起应用*
教您有关 k-means 聚类及其使用方法。 细分在行业中广泛用于将相似的客户分组在一起。
第 10 章和
“将分段与 k-means 聚类一起应用”
教您有关 k-means 聚类及其使用方法。 细分在行业中广泛用于将相似的客户分组在一起。
第 11 章和
*使用文本挖掘*
分析非结构化数据
,教您处理非结构化数据并弄清它们。 世界上非结构化数据比结构化数据更多。
第 11 章和
“使用文本挖掘分析非结构化数据”
,教您处理非结构化数据并弄清它们。 世界上非结构化数据比结构化数据更多。
第 12 章和
*在大数据世界中利用 Python*
在本章中教您将 Hadoop 和 Spark 与 Python 一起使用来处理数据。 随着数据规模的不断增长,已经出现了大数据技术来处理此类数据。
第 12 章和
“在大数据世界中利用 Python”
在本章中教您将 Hadoop 和 Spark 与 Python 一起使用来处理数据。 随着数据规模的不断增长,已经出现了大数据技术来处理此类数据。
# 这本书需要什么
...
...
@@ -97,7 +97,7 @@ $ pig ./BigData/pig_sentiment.pig
## 勘误
尽管我们已尽一切努力确保内容的准确性,但还是会发生错误。 如果您发现我们的其中一本书中有错误-可能是文本或代码中的错误-请将此报告给我们,我们将不胜感激。 这样,您可以使其他读者免于沮丧,并帮助我们改进本书的后续版本。 如果您发现任何勘误,请访问
[
这个页面
](
http://www.packtpub.com/submit-errata
)
,选择您的书,然后点击
**勘误
**
**提交[**
**
表格**
链接,然后输入勘误的详细信息。 验证勘误后,您的提交将被接受,并且勘误将上传到我们的网站上,或添加到该标题的“勘误”部分下的任何现有勘误列表中。 通过从
[
这个页面
](
http://www.packtpub.com/support
)
中选择标题,可以查看任何现有的勘误表。
尽管我们已尽一切努力确保内容的准确性,但还是会发生错误。 如果您发现我们的其中一本书中有错误-可能是文本或代码中的错误-请将此报告给我们,我们将不胜感激。 这样,您可以使其他读者免于沮丧,并帮助我们改进本书的后续版本。 如果您发现任何勘误,请访问
[
这个页面
](
http://www.packtpub.com/submit-errata
)
,选择您的书,然后点击
**勘误
提交
表格**
链接,然后输入勘误的详细信息。 验证勘误后,您的提交将被接受,并且勘误将上传到我们的网站上,或添加到该标题的“勘误”部分下的任何现有勘误列表中。 通过从
[
这个页面
](
http://www.packtpub.com/support
)
中选择标题,可以查看任何现有的勘误表。
## 盗版
...
...
new/master-py-ds/01.md
浏览文件 @
c9c2c66a
...
...
@@ -4,7 +4,7 @@
进行此类分析的第一步是解析原始数据。 数据解析涉及以下步骤:
*
**从源
**
中提取数据
:数据可以多种形式出现,例如 Excel,CSV,JSON,数据库等。 在一些有用的软件包的帮助下,Python 使得从源中读取数据变得非常容易,本章将对此进行介绍。
*
**从源
中提取数据**
:数据可以多种形式出现,例如 Excel,CSV,JSON,数据库等。 在一些有用的软件包的帮助下,Python 使得从源中读取数据变得非常容易,本章将对此进行介绍。
*
**清理数据**
:完成完整性检查后,需要适当清理数据,以便将其用于分析。 您可能具有有关班级学生的数据集,以及有关他们的身高,体重和成绩的详细信息。 可能还会有某些行缺少高度或重量。 根据执行的分析,这些具有缺失值的行可以忽略,也可以替换为平均身高或体重。
在本章中,我们将讨论以下主题:
...
...
@@ -832,7 +832,7 @@ p2 2 RAVENA COEYMANS SELKIRK CENTRAL SCHOOL DISTRICT ALBANY
```
*
**
MAX
**
:要获取小学肥胖学生的最大数量,请使用以下命令:
*
**
最大值
**
:要获取小学肥胖学生的最大数量,请使用以下命令:
```py
>>> data['NO. OBESE'].max()
...
...
@@ -840,7 +840,7 @@ p2 2 RAVENA COEYMANS SELKIRK CENTRAL SCHOOL DISTRICT ALBANY
```
*
**最
低
**
:要获取小学肥胖学生的最低人数,请使用以下命令:
*
**最
小值
**
:要获取小学肥胖学生的最低人数,请使用以下命令:
```py
>>> data['NO. OBESE'].min()
...
...
@@ -848,7 +848,7 @@ p2 2 RAVENA COEYMANS SELKIRK CENTRAL SCHOOL DISTRICT ALBANY
```
*
**
STD
**
:要获取肥胖学生人数的标准差,请使用以下命令:
*
**
标准差
**
:要获取肥胖学生人数的标准差,请使用以下命令:
```py
>>> data['NO. OBESE'].std()
...
...
@@ -998,7 +998,7 @@ MIDDLE/HIGH 53089 59.251116 65.905591
在本章中,我们熟悉了 NumPy 和 pandas 软件包。 我们了解了Pandas中不同的数据类型以及如何利用它们。 我们学习了如何执行数据清除和操作,其中我们处理了缺失值并执行了字符串操作。 本章为我们提供了数据科学的基础,您可以通过单击以下链接来更深入地了解 NumPy 和Pandas:
*
[
**NumPy
** **
文档**
](
http://docs.scipy.org/doc/
)
*
[
**Pandas
** **
文档**
](
http://pandas.pydata.org/
)
*
[
**NumPy
文档**
](
http://docs.scipy.org/doc/
)
*
[
**Pandas
文档**
](
http://pandas.pydata.org/
)
在下一章中,我们将学习推论统计的含义及其作用,以及如何理解推论统计中的不同概念。
\ No newline at end of file
在下一章中,我们将学习推断统计的含义及其作用,以及如何理解推断统计中的不同概念。
\ No newline at end of file
new/master-py-ds/02.md
浏览文件 @
c9c2c66a
...
...
@@ -2,9 +2,9 @@
在了解推理统计信息之前,让我们看一下描述性统计信息是关于什么的。
**描述性统计信息**
是提供给数据分析的术语,它以有意义的方式汇总数据,从而从中得出模式。 这是描述数据的一种简单方法,但是它无助于我们就所做出的假设得出结论。 假设您已经收集了生活在香港的 1,000 个人的身高。 他们的平均身高是描述性统计数字,但他们的平均身高并不表示这是整个香港的平均身高。 在这里,推
论
统计将帮助我们确定整个香港的平均身高,这将在本章中详细介绍。
**描述性统计信息**
是提供给数据分析的术语,它以有意义的方式汇总数据,从而从中得出模式。 这是描述数据的一种简单方法,但是它无助于我们就所做出的假设得出结论。 假设您已经收集了生活在香港的 1,000 个人的身高。 他们的平均身高是描述性统计数字,但他们的平均身高并不表示这是整个香港的平均身高。 在这里,推
断
统计将帮助我们确定整个香港的平均身高,这将在本章中详细介绍。
推
论
统计是关于用有限的数据集描述更大范围的分析并从中得出结论的全部内容。
推
断
统计是关于用有限的数据集描述更大范围的分析并从中得出结论的全部内容。
在本章中,我们将介绍以下主题:
...
...
@@ -29,7 +29,7 @@
![
A normal distribution
](
img/B03450_02_02.jpg
)
请看下图:它显示了三个具有正态分布的曲线。 曲线
`A`
的标准偏差为 1,曲线
`C`
的标准偏差为 2,曲线
`B`
的标准偏差为 3,这意味着 曲线
`B`
的值分布最大,而曲线
`A`
的值分布最小。 另一种看待它的方法是,如果曲线
`B`
代表一个国家的高度,那么这个国家的许多人具有高度的不同,而曲线
**的国家**
发行版
的身高彼此相似。
请看下图:它显示了三个具有正态分布的曲线。 曲线
`A`
的标准偏差为 1,曲线
`C`
的标准偏差为 2,曲线
`B`
的标准偏差为 3,这意味着 曲线
`B`
的值分布最大,而曲线
`A`
的值分布最小。 另一种看待它的方法是,如果曲线
`B`
代表一个国家的高度,那么这个国家的许多人具有高度的不同,而曲线
`C`
分布
的身高彼此相似。
![
A normal distribution
](
img/B03450_02_03.jpg
)
...
...
@@ -39,7 +39,7 @@
![
A normal distribution from a binomial distribution
](
img/3450_02_04.jpg
)
在上式中,
`n`
是硬币被抛掷的次数,
`p`
是成功的概率,
`q`
为(
*1– p*
),这是失败的可能性。
在上式中,
`n`
是硬币被抛掷的次数,
`p`
是成功的概率,
`q`
为(
`1 – p`
),这是失败的可能性。
Python 的 SciPy 软件包提供了有用的功能来执行统计计算。 您可以从
[
这个页面
](
http://www.scipy.org/
)
安装。 以下命令有助于绘制二项式分布:
...
...
@@ -123,7 +123,7 @@ SciPy 软件包中的`binom`函数有助于生成二项式分布以及与之相
## 伯努利发行
您可以执行具有两个可能结果的实验:成功或失败。 成功的概率为
`p`
,失败的概率为
*1-p*
。 在成功的情况下取
`1`
值,在失败的情况下取
`0`
值的随机变量称为伯努利分布。 概率分布函数可以写成:
您可以执行具有两个可能结果的实验:成功或失败。 成功的概率为
`p`
,失败的概率为
`1-p`
。 在成功的情况下取
`1`
值,在失败的情况下取
`0`
值的随机变量称为伯努利分布。 概率分布函数可以写成:
![
A Bernoulli distribution
](
img/3450_02_11.jpg
)
...
...
@@ -162,7 +162,7 @@ array([1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0,
![
A z-score
](
img/3450_02_15.jpg
)
在此,
`X`
是分布中的值,
*µ*
是分布的平均值,
*σ*
是分布的标准偏差
在此,
`X`
是分布中的值,
`µ`
是分布的平均值,
`σ`
是分布的标准偏差
让我们尝试从学校教室的角度来理解这个概念。
...
...
@@ -259,7 +259,7 @@ z 分数是统计学中必不可少的概念,已被广泛使用。 现在您
p 值是当假设被证明是正确的时,否定原假设的概率。 零假设是一种陈述,说两种度量之间没有区别。 如果假设每天学习 4 个小时的人的得分超过 100 分,则得分超过 90 分。这里的无效假设是,上课的小时数与得分得分之间没有关系。
如果 p 值等于或小于显着性水平(
*α*
),则原假设是不一致的,需要将其拒绝。
如果 p 值等于或小于显着性水平(
`α`
),则原假设是不一致的,需要将其拒绝。
![
A p-value
](
img/B03450_02_19.jpg
)
...
...
@@ -399,15 +399,21 @@ p 值为:
因此,平均值的标准误为 1.38 厘米。 置信区间的上下限可以使用以下公式确定:
*上限/下限=平均值(高度)+ /-sigma *
SEmean(x)
*
```
py
上限
/
下限
=
mean
(
高度
)
+/-
sigma
*
SEmean
(
x
)
```
对于下限:
*183.24 +(1.96 *
1.38)= 185.94
*
```
py
183.24
+
(
1.96
*
1.38
)
=
185.94
```
对于上限:
*183.24-(1.96 *
1.38)= 180.53
*
```
py
183.24
-
(
1.96
*
1.38
)
=
180.53
```
1.
96 标准偏差覆盖正态分布中 95% 的面积。
...
...
@@ -581,7 +587,7 @@ f 统计量由以下公式给出:
![
The F distribution
](
img/3450_02_33.jpg
)
`s
`
<sub>
`1`
</sub>
是
`n`
<sub>
`1`
[
</sub>
大小
`s`
<sub>
`2`
</sub>
是样本 2 的标准偏差,其中大小
`n`
<sub>
`2`
</sub>
*σ*
<sub>
`1`
</sub>
是样本
*1σ*
<sub>
`2`
的总体标准差 ]
</sub>
是样本 1
2 的总体标准偏差。
`s
[1]`
是的样本 1 的标准差,大小为
`n[1]`
,
`s[2]`
是样本 2 的标准偏差,大小为
`n[2]`
。
`σ[1]`
是样本 1 的总体标准差,
`σ[2]`
是样本
2 的总体标准偏差。
`f`
统计信息的所有可能值的分布称为 F 分布。 下图中的
`d1`
和
`d2`
表示自由度:
...
...
@@ -593,15 +599,15 @@ f 统计量由以下公式给出:
![
The chi-square distribution
](
img/3450_02_35.jpg
)
在此,
`n`
是样本的大小,
`s`
是样本的标准偏差,
*σ*
是总体的标准偏差。
在此,
`n`
是样本的大小,
`s`
是样本的标准偏差,
`σ`
是总体的标准偏差。
如果我们反复采样并定义卡方统计量,则可以形成卡方分布,该分布由以下概率密度函数定义:
![
The chi-square distribution
](
img/3450_02_36.jpg
)
这里,
`Y
`
<sub>
`0`
</sub>
是取决于自由度数的常数,
`X`
<sub>
*2 [*
</sub>
是卡方统计量,
*v = n-1*
是自由度数,
`e`
是等于自然对数底数的常数 系统。
这里,
`Y
[0]`
是取决于自由度数的常数,
`X[2]`
是卡方统计量,
`v = n-1`
是自由度数,
`e`
是等于自然对数底数的常数 系统。
`Y
`
<sub>
`0`
</sub>
的定义使得卡方曲线下的面积等于 1。
`Y
[0]`
的定义使得卡方曲线下的面积等于 1。
![
The chi-square distribution
](
img/B03450_02_37.jpg
)
...
...
new/master-py-ds/04.md
浏览文件 @
c9c2c66a
...
...
@@ -187,14 +187,14 @@ matplotlib 库中的样式包使更改绘图图的样式更加容易。 更改
上图的各个部分解释如下:
*
**Q3**
:这是数据的第 75
<sup>
个
</sup>
百分位值。 也称为上铰链。
*
**Q1**
:这是数据的第 25
<sup>
个
</sup>
百分位值。 也称为下铰链。
*
**框**
:这也称为步骤。 这是上铰链和下铰链之间的区别。
*
**中值**
:这是数据的中点。
*
**最大**
:这是上部的内部围栏。 它是
**Q3**
之上的步长的 1.5 倍。
*
**最小值**
:这是下部内围栏。 是
**Q1**
以下步长的 1.5 倍。
大于
**Max**
或小于
**Min**
的任何值称为离群值,也称为传单。
*
`Q3`
:这是数据的第 75 个
百分位值。 也称为上铰链。
*
`Q1`
:这是数据的第 25 个
百分位值。 也称为下铰链。
*
`Box`
:这也称为步骤。 这是上铰链和下铰链之间的区别。
*
`Median`
:这是数据的中点。
*
`Max`
:这是上部的内部围栏。 它是
`Q3`
之上的步长的 1.5 倍。
*
`Min`
:这是下部内围栏。 是
`Q1`
以下步长的 1.5 倍。
大于
`Max`
或小于
`Min`
的任何值称为离群值,也称为传单。
以下代码将创建一些数据,并使用
`boxplot`
函数创建箱形图:
...
...
new/master-py-ds/05.md
浏览文件 @
c9c2c66a
...
...
@@ -6,7 +6,7 @@
以下是本章以后将使用的一些术语:
*
**
功能
**
:此涉及有助于定义结果的独特特征
*
**
特征
**
:此涉及有助于定义结果的独特特征
*
**样本**
:样本是要处理的项目。 它可以是文档,图像,音频或 CSV 文件
*
**特征向量**
:此表示代表某些对象的数字特征,例如 n 维向量
*
**特征提取**
:此是指特征向量的处理,其中数据从高维空间转换为低维空间
...
...
@@ -155,13 +155,15 @@
如果我们通过一个简单的线性回归函数(将在下一章中进行介绍)运行,则权重为因变量
`y`
,而自变量
`x`
是高度,我们得到以下方程式:
*y = 1.405405405 x + 57.87687688*
```
py
y
=
1.405405405
x
+
57.87687688
```
如果您将前面的方程式绘制为以
`57.88`
作为截距的直线,并且该线的斜率在
`y`
轴和
`Height`
的散点图顶部为
`1.4`
在
`x`
轴上,则获得以下图:
![
Linear regression
](
img/B03450_05_06.jpg
)
在此示例中,回归算法尝试创建前面的方程,该方程在预测学生的体重时具有最小的误差。 这是一个简单的线性回归的例子。 在第 6 章
和
*用线性回归*
执行预测
中,我们将进一步讨论具有多个变量的线性回归的概念。
在此示例中,回归算法尝试创建前面的方程,该方程在预测学生的体重时具有最小的误差。 这是一个简单的线性回归的例子。 在第 6 章
“用线性回归执行预测”
中,我们将进一步讨论具有多个变量的线性回归的概念。
# Logistic 回归
...
...
@@ -171,7 +173,7 @@ Logistic 回归是另一种监督学习技术,它基本上是一种概率分
![
Logistic regression
](
img/B03450_05_07.jpg
)
此处,
`x`
将是自变量,
*F(x)*
将是因变量。
此处,
`x`
将是自变量,
`F(x)`
将是因变量。
如果尝试绘制从负无穷大到正无穷大的逻辑函数,则将得到以下
`S`
形图:
...
...
@@ -199,24 +201,24 @@ Logistic 回归是另一种监督学习技术,它基本上是一种概率分
明天,Stacy 会在奥斯汀的户外仪式上与她订婚。 在过去的几年中,奥斯汀一年只有六个雨天。 不幸的是,天气预报员明天已经预报了降雨。 在 80% 的时间里,天气预报员准确地预测了降雨。 但是,他在不下雨时有 20% 的时间错误地预测了天气。 确定在 Stacy 订婚那天下雨的概率。 以下是一些事件,基于这些事件可以计算出概率:
*
*AI*
:此事件表明 Stacy 的参与正在下雨
*
*A2*
:此事件表明在 Stacy 的订婚中不下雨
*
`B`
:此事件表明天气预报员预测会下雨
*
`A1`
:此事件表明 Stacy 的参与正在下雨
*
`A2`
:此事件表明在 Stacy 的订婚中不下雨
*
`B`
:此事件表明天气预报员预测会下雨
以下是基于上述事件的概率:
*
*P(AI)= 6/365 = 0.016438*
:这意味着每年下雨六天
*
*P(AII)= 359/365 = 0.98356*
:这意味着一年中不会下雨 359 天
*
*P(B | AI)= 0.8*
:这意味着在 80% 的时间里,天气预报员下雨了
*
*P(B | AII)= 0.2*
:这意味着 20% 的时间不会像天气预报员所预测的那样下雨
*
`P(A1) = 6/365 = 0.016438`
:这意味着每年下雨六天
*
`P(A2) = 359/365 = 0.98356`
:这意味着一年中不会下雨 359 天
*
`P(B | A1) = 0.8`
:这意味着在 80% 的时间里,天气预报员下雨了
*
`P(B | A2) = 0.2`
:这意味着 20% 的时间不会像天气预报员所预测的那样下雨
以下公式可帮助我们计算朴素贝叶斯概率:
*P(AI | B)= P(AI)P(B | AI)/(P(AI)P(B | AI)+ P(AII)P(B | AII))*
*P(AI | B)=(0.0164 *
0.8)/(0.0164
* 0.8 + 0.9834 *
0.2)
*
*P(AI | B)= 0.065*
```
py
P
(
A1
|
B
)
=
P
(
A1
)
P
(
B
|
A1
)
/
(
P
(
A1
)
P
(
B
|
A1
)
+
P
(
A2
)
P
(
B
|
A2
))
P
(
A1
|
B
)
=
(
0.0164
*
0.8
)
/
(
0.0164
*
0.8
+
0.9834
*
0.2
)
P
(
A1
|
B
)
=
0.065
```
因此,前面的计算表明,即使气象员预测会下雨,根据贝叶斯定理,实际上也只有 6.5% 的机会会下雨
...
...
@@ -228,15 +230,15 @@ k 均值聚类是一种无监督的学习技术,有助于将`n`观测值的数
![
The k-means clustering
](
img/B03450_05_10.jpg
)
之所以称其为聚类算法,是因为它通过计算特征的均值来进行操作,这些均值是指我们对事物进行聚类的因变量,例如根据平均交易量和每季度购买的平均产品数量对客户进行细分 一年 然后,该平均值成为群集的中心。
`K`
数是指簇数,即,通过计算均值
`K`
数,从而导致周围数据的
*聚类*
组成的技术 这些 k 均值
*。*
之所以称其为聚类算法,是因为它通过计算特征的均值来进行操作,这些均值是指我们对事物进行聚类的因变量,例如根据平均交易量和每季度购买的平均产品数量对客户进行细分 一年 然后,该平均值成为群集的中心。
`K`
数是指簇数,即,通过计算均值
`K`
数,从而导致周围数据的
*聚类*
组成的技术 这些 k 均值
。
我们如何选择这个 K? 如果我们对所要寻找的东西有所了解,或者期望或想要多少个集群,那么在启动引擎并让算法进行计算之前,将
`K`
设置为该数字。
如果我们不知道有多少,那么我们的探索将花费更长的时间并涉及一些反复试验,例如,当我们尝试
*K = 3*
,
`4`
和
`5`
,直到我们看到集群在我们的领域对我们有意义。
如果我们不知道有多少,那么我们的探索将花费更长的时间并涉及一些反复试验,例如,当我们尝试
`K = 3`
,
`4`
和
`5`
,直到我们看到集群在我们的领域对我们有意义。
![
The k-means clustering
](
img/B03450_05_11.jpg
)
*|| x*
<sub>
`i`
</sub>
*-v*
<sub>
`j`
</sub>
*||*
是
*xi*
与
*vj*
,
`c`
<sub>
`i`
</sub>
在
*中的欧几里德距离。 在*
<sup>
*第*
</sup>
个群集中,
数据点的数量,
`c`
是群集中心的数量。
`||x[i] - v[j]||`
是
`xi`
与
`vj`
的欧几里德距离。
`c[i]`
是第
`i`
个群集的
数据点的数量,
`c`
是群集中心的数量。
k 均值聚类广泛用于计算机视觉,市场细分,天文学,地统计学和农业。
...
...
@@ -250,8 +252,8 @@ k 均值聚类将在后面的章节中更详细地介绍,并带有实际示例
层次集群本质上有两种类型:
*
**
聚集
层次聚类**
:这是一种自下而上的方法,其中每个观察都在其自己的聚类中开始,并且在两个其他聚类沿向上进入一个层次时开始
*
**分裂
式
层次聚类**
:这是一种自上而下的方法,其中观察值在单个聚类中以开头,然后沿着层次结构分成两部分
*
**
凝聚
层次聚类**
:这是一种自下而上的方法,其中每个观察都在其自己的聚类中开始,并且在两个其他聚类沿向上进入一个层次时开始
*
**分裂层次聚类**
:这是一种自上而下的方法,其中观察值在单个聚类中以开头,然后沿着层次结构分成两部分
下图显示了
**聚集**
和
**分裂**
层次聚类:
...
...
new/master-py-ds/06.md
浏览文件 @
c9c2c66a
...
...
@@ -11,7 +11,9 @@
一个简单的线性回归具有一个变量,可以使用以下公式将其描述为:
*y = A + Bx*
```
py
y
=
A
+
Bx
```
这里,
`y`
是因变量,
`x`
是自变量,
`A`
是截距(其中
`x`
等于 零),
`B`
是系数
...
...
@@ -103,7 +105,7 @@ Coefficient value of the height is [ 1.00092142]
![
Multiple regression
](
img/3450_06_17.jpg
)
其中,
`Y`
是因变量,
`a`
是截距,
*b1*
和
*b2*
是系数,
*x1*
和
*x2*
是自变量
其中,
`Y`
是因变量,
`a`
是截距,
`b1`
和
`b2`
是系数,
`x1`
和
`x2`
是自变量
另外,请注意,平方因变量仍使其线性,但如果系数为平方,则为非线性。
...
...
new/master-py-ds/08.md
浏览文件 @
c9c2c66a
...
...
@@ -162,7 +162,7 @@ movie_user_preferences['William']['Gone Girl']
## 皮尔森相关评分
我们已经在第 2 章,
*推
论
统计*
中研究了皮尔逊相关性。 欧几里得距离是用户彼此分开的距离,而 Pearson 相关性考虑了两个人之间的关联。 我们将使用 Pearson 相关性来计算两个用户之间的相似度得分。
我们已经在第 2 章,
*推
断
统计*
中研究了皮尔逊相关性。 欧几里得距离是用户彼此分开的距离,而 Pearson 相关性考虑了两个人之间的关联。 我们将使用 Pearson 相关性来计算两个用户之间的相似度得分。
让我们看看
`Sam`
和
`Toby`
如何相互关联:
...
...
new/thoughtful-ds/01.md
浏览文件 @
c9c2c66a
...
...
@@ -128,7 +128,7 @@
* **探索**:查找统计属性,例如中央 趋势,标准差,分布和变量识别,例如单变量和双变量分析,变量之间的相关性等。
* **可视化**:此步骤对于正确分析数据并形成假设非常重要。 可视化工具应提供合理水平的交互性,以促进对数据的理解。
* **构建模型**:应用推
论
统计信息来形成假设,例如为模型选择特征。 此步骤通常需要专业知识,并且需要大量解释。
* **构建模型**:应用推
断
统计信息来形成假设,例如为模型选择特征。 此步骤通常需要专业知识,并且需要大量解释。
3.
**部署**
:将分析阶段的输出操作化:
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录