Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
data8-textbook-zh
提交
3b2d4686
D
data8-textbook-zh
项目概览
OpenDocCN
/
data8-textbook-zh
大约 1 年 前同步成功
通知
0
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
data8-textbook-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
3b2d4686
编写于
1月 03, 2018
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
ch12.
上级
11434bf3
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
136 addition
and
0 deletion
+136
-0
12.md
12.md
+136
-0
未找到文件。
12.md
0 → 100644
浏览文件 @
3b2d4686
# 十二、为什么均值重要
在这个课程中,我们已经研究了几个不同的统计量,包括总编译距离,最大值,中位数和平均值。在关于随机性的明确假设下,我们绘制了所有这些统计量的经验分布。有些统计量,比如最大和总变异距离,分布明显偏向一个方向。但是,无论研究对象如何,样本均值的经验分布几乎总是接近钟形。
如果随机样本的性质是真的,不管总体如何,它都能成为一个有力的推理工具,因为我们通常不清楚总体中的数据。大型随机样本的均值分布属于这类性质。这就是随机抽样方法广泛用于数据科学的原因。
在本章中,我们将研究均值,以及我们可以说的一些东西,仅仅使用最基本的底层总体的假设。我们要解决的问题包括:
+
均值正好测量了什么?
+
大部分数据与平均值有多接近?
+
样本量如何与样本的均值相关?
+
为什么随机样本的经验分布出现钟形?
+
我们如何有效地使用抽样方法进行推理?
## 均值的性质
在这个课程中,我们可以互换地使用“average”和“mean”两个单词(译者注,在中文中都译为“均值”),后面也一样。 在你高中甚至更早的时候,你熟悉均值的定义。
定义:数值集合的均值是集合中所有元素的总和,除以集合中元素的数量。
`np.average`
和
`np.mean`
方法返回数组的均值。
```
py
not_symmetric
=
make_array
(
2
,
3
,
3
,
9
)
np
.
average
(
not_symmetric
)
4.25
np
.
mean
(
not_symmetric
)
4.25
```
### 基本性质
上面的定义和例子指出了均值的一些性质。
+
它不一定是集合中的一个元素。
+
即使集合的所有元素都是整数,也不一定是整数。
+
它在集合的最小值和最大值之间。
+
它不一定在两个极值的正中间;集合中一半的元素并不总是大于均值。
+
如果集合含有一个变量的值,以指定单位测量,则均值也具有相同的单位。
我们现在将研究一些其他性质,它有助于理解均值,并与其他统计量相关。
### 均值是个“平滑器”
您可以将均值视为“均衡”或“平滑”操作。 例如,将上面的
`not_symmetric`
中的条目设想为四个不同人的口袋中的美元。 为此,你先把所有的钱都放进一个大袋子,然后平均分配给四个人。 最开始,他们在口袋中装了不同数量的钱(2 美元,3 美元,3 美元和9 美元),但现在每个人都有平均数量 4.25 美元。
### 均值的性质
如果一个集合只包含 1 和 0,那么集合的总和就是集合中 1 的数量,集合的均值就是 1 的比例。
```
py
zero_one
=
make_array
(
1
,
1
,
1
,
0
)
sum
(
zero_one
)
3
np
.
mean
(
zero_one
)
0.75
```
捏可以将 1 替换为布尔值
`True`
,0 替换为
`False`
。
```
py
np
.
mean
(
make_array
(
True
,
True
,
True
,
False
))
0.75
```
因为比例是均值的一个特例,随机样本均值的结果也适用于随机样本比例。
### 均值和直方图
集合
`{2, 3, 3, 9}`
的平均值是 4.25,这不是数据的“正中间的点”。 那么这是什么意思?
为了了解它,请注意,平均值可以用不同的方式计算。
![](
http://latex.codecogs.com/gif.latex?%5Cbegin%7Balign*%7D%20%5Cmbox%7Bmean%7D%20%7E%20%26%3D%7E%204.25%20%5C%5C%20%5C%5C%20%26%3D%7E%20%5Cfrac%7B2%20+%203%20+%203%20+%209%7D%7B4%7D%20%5C%5C%20%5C%5C%20%26%3D%7E%202%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%203%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%203%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%209%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%5C%5C%20%5C%5C%20%26%3D%7E%202%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%203%20%5Ccdot%20%5Cfrac%7B2%7D%7B4%7D%20%7E%7E%20+%20%7E%7E%209%20%5Ccdot%20%5Cfrac%7B1%7D%7B4%7D%20%5C%5C%20%5C%5C%20%26%3D%7E%202%20%5Ccdot%200.25%20%7E%7E%20+%20%7E%7E%203%20%5Ccdot%200.5%20%7E%7E%20+%20%7E%7E%209%20%5Ccdot%200.25%20%5Cend%7Balign*%7D
)
最后一个表达式就是一个普遍事实的例子:当我们计算平均值时,集合中的每个不同的值都由它在集合中出现的时间比例加权。
这有一个重要的结果。 集合的平均值仅取决于不同的值及其比例,而不取决于集合中元素的数量。 换句话说,集合的平均值仅取决于集合中值的分布。
因此,如果两个集合具有相同的分布,则它们具有相同的均值。
例如,这里是另一个集合,它的分布与
`not_symmetric`
相同,因此均值也相同。
```
py
not_symmetric
array
([
2
,
3
,
3
,
9
])
same_distribution
=
make_array
(
2
,
2
,
3
,
3
,
3
,
3
,
9
,
9
)
np
.
mean
(
same_distribution
)
4.25
```
均值是分布直方图的物理属性。这里是
`not_symmetric`
的分布直方图,或者等价的
`same_distribution`
的分布直方图。
想象一下,直方图是由纸板组成的图形,它附着在一条线上,线沿着横轴延伸。并且,将这些条形想象为附加在值 2, 3 和 9 上的权重。假设您尝试在线上的某个点平衡这个图形。如果该点接近 2,图形就向右倾斜。如果该点接近 9,则图形就向左倾斜。之间的某个地方是这个数字取得平衡的点。这个点是 4.25,就是均值。
均值是直方图的重心或平衡点。
为了理解这是为什么,了解一些物理会有帮助。重心的计算与我们计算平均值的方法完全相同,通过将不同值按它们比例加权。
因为均值是一个平衡点,有时在直方图的底部显示为一个支点或三角形。
### 均值和中位数
如果一个学生的考试成绩低于平均水平,这是否意味着该学生在该考试中处于后一半?
对于学生来说,回答是“不一定”。 原因与直方图的平衡点即均值,和数据的“中间点”即中位数之间的关系有关。
通过这个关系很容易看到一个简单的例子。 这里是数组
`symmetric`
的集合
`{2, 3, 3, 4}`
的直方图。 分布对称于 3。均值和中位数都等于 3。
```
py
symmetric
=
make_array
(
2
,
3
,
3
,
4
)
```
```
py
np
.
mean
(
symmetric
)
3.0
percentile
(
50
,
symmetric
)
3
```
一般来说,对于对称分布,均值和中位数是相等的。
如果分布不对称呢? 我们来比较
`symmetric`
和
`not_symmetric`
。
蓝色直方图表示原始的
`symmetric`
分布。
`not_symmetric `
的金色从左端起始,和蓝色一样,但是最右边的条形到了数值 9。棕色部分是两个直方图重叠的位置。
蓝色分布的中位数和均值都等于 3。金色分布的中值也等于 3,尽管右半部分与左边的分布不同。
但金色分布的平均值不是 3:金色直方图在 3 时不平衡。平衡点已经向右移动到 4.25。
在金色分布中,4 个条目中有 3 个(75%)低于平均水平。 因此,低于平均分的学生可以放心。 他或她可能是班上的大多数人。
一般来说,如果直方图的一边有尾巴(整数属于是“偏斜的”),那么平均值就会从中间拉到尾巴的方向。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录