Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
data8-textbook-zh
提交
ba81fa08
D
data8-textbook-zh
项目概览
OpenDocCN
/
data8-textbook-zh
大约 1 年 前同步成功
通知
0
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
data8-textbook-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
ba81fa08
编写于
1月 01, 2018
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
ch11.
上级
0d084b14
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
62 addition
and
0 deletion
+62
-0
11.md
11.md
+62
-0
未找到文件。
11.md
浏览文件 @
ba81fa08
...
@@ -274,3 +274,65 @@ pop_median
...
@@ -274,3 +274,65 @@ pop_median
在后面的章节中,我们将回到现实,在参数未知的情况下工作。 就目前而言,我们是无所不知的。
在后面的章节中,我们将回到现实,在参数未知的情况下工作。 就目前而言,我们是无所不知的。
### 随机样本和估计
### 随机样本和估计
让我们无放回地随机抽取 500 名员工的样本,并将所选员工的总薪酬的中位数作为我们的参数估计量。
```
py
our_sample
=
sf2015
.
sample
(
500
,
with_replacement
=
False
)
our_sample
.
select
(
'Total Compensation'
).
hist
(
bins
=
sf_bins
)
```
```
py
est_median
=
percentile
(
50
,
our_sample
.
column
(
'Total Compensation'
))
est_median
113598.99000000001
```
样本量很大。 根据平均定律,样本的分布与总体的分布相似,因此样本中位数与总体中位数相差不大(尽管当然并不完全相同)。
所以现在我们有了参数的估计。 但是,如果样本是不同的,估计的值也会不同。 我们希望能够量化估计的值在不同样本间的差异。 这个变化的测量将有助于我们衡量我们可以将参数估计得多么准确。
为了查看样本有多么不同,我们可以从总体中抽取另一个样本,但这样做就作弊了。 我们正试图模仿现实生活,我们不能掌握所有的人口数据。
用某种方式,我们必须得到另一个随机样本,而不从总体中抽样。
### 自举法:从样本中重采样
我们所做的是,从样本中随机抽样。 我们知道了,大型随机样本可能类似于用于抽取的总体。 这一观察使得数据科学家可以通过自举来提升自己:抽样过程可以通过从样本中抽样来复制。
以下是自举法的步骤,用于生成类似总体的另一个随机样本:
+
将原始样本看做总体。
+
从样本中随机抽取样本,与原始样本大小相同。
二次样本的大小与原始样本相同很重要。 原因是估计量的变化取决于样本的大小。 由于我们的原始样本由 500 名员工组成,我们的样本中位数基于 500 个值。 为了看看样本变化多少,我们必须将其与 500 个其他样本的中位数进行比较。
如果我们从大小为 500 的样本中,无放回地随机抽取了 500 次,我们只会得到相同的样本。 通过带放回抽取,我们就可以让新样本与原始样本不同,因为有些员工可能会被抽到一次以上,其他人则完全不会。
为什么这是一个好主意? 按照平均定律,原始样本的分布可能与总体相似,所有“二次样本”的分布可能与原始样本相似。 因此,所有二次样本的分布也可能与总体相似。
### 二次样本的中位数
回想一下,使用
`sample`
方法而没有指定样本大小时,默认情况下样本大小等于用于抽取样本的表的行数。 这是完美的自举! 这是从原始样本中抽取的一个新样本,以及相应的样本中位数。
```
py
resample_1
=
our_sample
.
sample
()
resample_1
.
select
(
'Total Compensation'
).
hist
(
bins
=
sf_bins
)
```
```
py
resampled_median_1
=
percentile
(
50
,
resample_1
.
column
(
'Total Compensation'
))
resampled_median_1
110001.16
```
通过重采样,我们有了总体中位数的另一个估计。 通过一次又一次的重采样,我们得到许多这样的估计,因此有了估计的经验分布。
```
py
resample_2
=
our_sample
.
sample
()
resampled_median_2
=
percentile
(
50
,
resample_2
.
column
(
'Total Compensation'
))
resampled_median_2
110261.39999999999
```
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录