diff --git a/9.md b/9.md index 66b1f58ad2426f6c6810e52ea626c7bf5c48a4e7..7026625011381b0fc90c09527b4e344d07fe5419 100644 --- a/9.md +++ b/9.md @@ -397,3 +397,58 @@ Table().with_columns( 这取决于你愿意承担多少风险,因为直方图还表明,如果你对分割下注,你比对红色下注更容易损失超过 50 美元。 轮盘赌桌上,所有赌注的单位美元的预期净损失相同(除了线注,这是更糟的)。 但一些赌注的回报比其他赌注更为可变。 你可以选择这些赌注,只要你准备好可能会大输一场。 + +## 统计量的经验分布 + +平均定律意味着,大型随机样本的经验分布类似于总体的分布,概率相当高。 + +在两个直方图中可以看到相似之处:大型随机样本的经验直方图很可能类似于总体的直方图。 + +提醒一下,这里是所有美联航航班延误的直方图,以及这些航班的 1000 个随机样本的经验直方图。 + +```py +united = Table.read_table('united_summer2015.csv') +delay_bins = np.arange(-20, 201, 10) +united.select('Delay').hist(bins = delay_bins, unit = 'minute') +plots.title('Population'); +``` + +```py +sample_1000 = united.sample(1000) +sample_1000.select('Delay').hist(bins = delay_bins, unit = 'minute') +plots.title('Sample of Size 1000'); +``` + +两个直方图明显相似,虽然他们并不等价。 + +### 参数 + +我们经常对总体相关的数量感兴趣。 + +在选民的总体中,有多少人会投票给候选人 A 呢? +在 Facebook 用户的总体中,用户最多拥有的 Facebook 好友数是多少? +在美联航航班的总体中,起飞延误时间的中位数是多少? + +与总体相关的数量被称为参数。 对于美联航航班的总体,我们知道参数“延误时间的中位数”的值: + +```py +np.median(united.column('Delay')) +2.0 +``` + +NumPy 函数`median`返回数组的中值(中位数)。 在所有的航班中,延误时间的中位数为 2 分钟。 也就是说,总体中约有 50% 的航班延误了 2 分钟以内: + +```py +united.where('Delay', are.below_or_equal_to(2)).num_rows/united.num_rows +0.5018444846292948 +``` + +一半的航班在预定起飞时间的 2 分钟之内起飞。 这是非常短暂的延误! + +注意。 由于“重复”,百分比并不完全是 50,也就是说,延误了 2 分钟的航班有 480 个。数据集中的重复很常见,我们不会在这个课程中担心它。 + +```py +united.where('Delay', are.equal_to(2)).num_rows +480 +``` +