提交 b358cc6b 编写于 作者: W wizardforcel

ch8.

上级 3e3bfa8c
......@@ -384,7 +384,7 @@ np.count_nonzero(tosses == 'Heads')
预测 100 次硬币投掷中有 50 个正面是很自然的,或多或少。
但多少是“或多或少”呢? 获得正好 50 个正面的机会是多少? 像数据科学这样的问题,不仅因为它们涉及随机性的有趣方面,而且因为它们可以用于分析试验,其中实验和控制组的分配由硬币的投掷决定。
但多少是“或多或少”呢? 获得正好 50 个正面的几率是多少? 像数据科学这样的问题,不仅因为它们涉及随机性的有趣方面,而且因为它们可以用于分析试验,其中实验和控制组的分配由硬币的投掷决定。
在这个例子中,我们将模拟以下实验的 10,000 次重复:
......@@ -476,13 +476,13 @@ results.select('Number of Heads').hist(bins=np.arange(30.5, 69.6, 1))
### 解法
在涉及机会的任何问题中,重要的随机性的假设。 假设有三分之一的机会,参赛者的最初选择是后面有车的门,这是合理的。
在涉及几率的任何问题中,重要的随机性的假设。 假设有三分之一的几率,参赛者的最初选择是后面有车的门,这是合理的。
在这个假设下,解决这个问题的方法非常简单,尽管简单的解决方案并不能说服每个人。 无论如何就是这样。
+ 汽车在原来选择的门后面的机会是 1/3。
+ 汽车在原来选择的门后面的几率是 1/3。
+ 汽车在原来选择的门后面或者剩余的门后面。 它不能在其他地方。
+ 因此,汽车在剩余的门后的机会是 2/3。
+ 因此,汽车在剩余的门后的几率是 2/3。
+ 因此,选手应该更改选择。
+ 就是这样,故事结束了。
......@@ -679,3 +679,162 @@ combined.barh(0)
注意三条蓝色条形几乎相等 - 原始选择有同等可能是三个可用条目中的任何一条。 但是,汽车对应的金色条形是蓝色条形的两倍。
模拟证实了,如果参赛者改变选择,她有两倍的可能性获胜。
## 发现概率
几个世纪以来,对于什么是概率存在哲学争论。有些人认为概率是相对频率;其他人认为他们是长期的相对频率较长;还有一些人认为概率是个人不确定性程度的主观测量。
在这个课程中,大多数概率将是相对频率,尽管许多人会有主观的解释。无论如何,在不同的解释中,概率计算和组合的方式是一致的。
按照惯例,概率是介于 0 和 1 之间的数字,或者 0% 和 100% 之间。不可能的事件概率为 0。确定的事件概率为 1。
数学是准确发现概率的主要工具,尽管计算机也可用于此目的。模拟可以提供出色的近似,具有很高的概率。在本节中,我们将以非正式方式制定一些简单的规则来管理概率的计算。在随后的章节中,我们将回到模拟来近似复杂事件的概率。
我们将使用标准符号 ![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Bevent%7D%29) 来表示“事件”发生的概率,我们将交替使用“几率”和“概率”两个字。
## 事件不会发生的时候
如果事件发生的概率是 40%,不发生的几率就是 60%。这个自然的计算可以这样秒速:
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Ban%20event%20doesn%27t%20happen%7D%29%20%7E%3D%7E%201%20-%20P%28%5Cmbox%7Bthe%20event%20happens%7D%29)
## 所有结果等可能的时候
如果你投掷一个普通的骰子,一个自然的假设是,所有六个面都是等可能的。 那么一个面出现的概率可以很容易地计算出来。 例如,骰子显示偶数的几率是:
![](http://latex.codecogs.com/gif.latex?%5Cfrac%7B%5Cmbox%7Bnumber%20of%20even%20faces%7D%7D%7B%5Cmbox%7Bnumber%20of%20all%20faces%7D%7D%20%7E%3D%7E%20%5Cfrac%7B%5C%23%5C%7B2%2C%204%2C%206%5C%7D%7D%7B%5C%23%5C%7B1%2C%202%2C%203%2C%204%2C%205%2C%206%5C%7D%7D%20%7E%3D%7E%20%5Cfrac%7B3%7D%7B6%7D)
与之相似:
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Bdie%20shows%20a%20multiple%20of%203%7D%29%20%7E%3D%7E%20%5Cfrac%7B%5C%23%5C%7B3%2C%206%5C%7D%7D%7B%5C%23%5C%7B1%2C%202%2C%203%2C%204%2C%205%2C%206%5C%7D%7D%20%7E%3D%7E%20%5Cfrac%7B2%7D%7B6%7D)
通常:
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Ban%20event%20happens%7D%29%20%7E%3D%7E%20%5Cfrac%7B%5C%23%5C%7B%5Cmbox%7Boutcomes%20that%20make%20the%20event%20happen%7D%5C%7D%7D%20%7B%5C%23%5C%7B%5Cmbox%7Ball%20outcomes%7D%5C%7D%7D)
前提是所有的结果都是等可能的。
并非所有的随机现象都像骰子一样简单。 下面的两个主要的概率规则甚至允许数学家在复杂的情况下找到概率。
## 两个事件必须同时发生时
假设您有一个盒子,包含三张纸条:一张红色,一张蓝色和一张绿色。 假设你随机抽两张纸条而不放回;也就是你把三张纸条打乱,抽一张,打乱其余两张,再从这两张中抽出一张。 你先得到绿色纸条,然后是红色纸条的几率是多少?
有六种可能的颜色对:RB,BR,RG,GR,BG,GB(我们已经缩写了每种颜色的名字,就是它的第一个字母)。 所有这些都是采样方案是等可能的,只有其中一个(GR)使事件发生。所以:
![](http://latex.codecogs.com/gif.latex?%24%24%20P%28%5Cmbox%7Bgreen%20first%2C%20then%20red%7D%29%20%7E%3D%7E%20%5Cfrac%7B%5C%23%5C%7B%5Cmbox%7BGR%7D%5C%7D%7D%7B%5C%23%5C%7B%5Cmbox%7BRB%2C%20BR%2C%20RG%2C%20GR%2C%20BG%2C%20GB%7D%5C%7D%7D%20%7E%3D%7E%20%5Cfrac%7B1%7D%7B6%7D)
但是还有另外一种方法来得到答案,可以用两个阶段来思考这个事件。 必须首先抽取绿色纸条。几率是 1/3,也就是说在所有实验的大约 1/3 的重复中,先抽取了绿色纸条,但事件还没完成。在这 1/3 的重复中,必须再次抽取红色纸条。这个发生在大约 1/2 的重复中,所以:
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Bgreen%20first%2C%20then%20red%7D%29%20%7E%3D%7E%20%5Cfrac%7B1%7D%7B2%7D%20%7E%5Cmbox%7Bof%7D%7E%20%5Cfrac%7B1%7D%7B3%7D%20%7E%3D%7E%20%5Cfrac%7B1%7D%7B6%7D)
这个计算通常按照事件顺序,像这样:
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Bgreen%20first%2C%20then%20red%7D%29%20%7E%3D%7E%20%5Cfrac%7B1%7D%7B3%7D%20%7E%5Ctimes%7E%20%5Cfrac%7B1%7D%7B2%7D%20%7E%3D%7E%20%5Cfrac%7B1%7D%7B6%7D)
因数 1/2 叫做“假设第一次出现了绿色纸条,第二次出现红色纸条的条件几率”。
通常,我们拥有乘法规则:
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Btwo%20events%20both%20happen%7D%29%20%7E%3D%7E%20P%28%5Cmbox%7Bone%20event%20happens%7D%29%20%5Ctimes%20P%28%5Cmbox%7Bthe%20other%20event%20happens%2C%20given%20that%20the%20first%20one%20happened%7D%29)
两个事件同时发生的概率,等于第一个事件发生的概率,乘上第一个事件发生的情况下第二个事件发生的概率。
因此,这里有两个条件 - 一个事件必须发生,另一个也是 - 几率是分数的分数,这比两个因数的任何一个都要小。 满足的条件越多,满足的可能性就越小。
## 事件以两种不同的方式发生
相反,假设我们希望两张纸条中的一张是绿色的,另一张是红色的。 此事件不指定颜色必须出现的顺序。所以他们可以以任何顺序出现。
解决这样的问题的一个好方法就是对事件进行划分,以便它正好能够以几种不同的方式之一发生。 “一绿一红”的自然划分是:GR,RG。
根据上面的计算,GR 和 RG 每个的几率都是 1/6。所以你可以通过把它们相加来计算一绿一红的概率。
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Bone%20green%20and%20one%20red%7D%29%20%7E%3D%7E%20P%28%5Cmbox%7BGR%7D%29%20+%20P%28%5Cmbox%7BRG%7D%29%20%7E%3D%7E%20%5Cfrac%7B1%7D%7B6%7D%20+%20%5Cfrac%7B1%7D%7B6%7D%20%7E%3D%7E%20%5Cfrac%7B2%7D%7B6%7D)
通常,我们拥有加法规则:
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Ban%20event%20happens%7D%29%20%7E%3D%7E%20P%28%5Cmbox%7Bfirst%20way%20it%20can%20happen%7D%29%20+%20P%28%5Cmbox%7Bsecond%20way%20it%20can%20happen%7D%29%20%7E%7E%7E%20%5Cmbox%7B%7D)
事件发生的概率,等于以第一种方式发生的概率,加上以第二种方式发生的概率。
只要事件正好以两种方式之一发生。
因此,当事件以两种不同的方式之一发生时,发生的几率是一些几率的总和,因此比任何一种方式的几率都大。
乘法规则可以自然扩展到两个以上的事件,我们将在下面看到。 所以这个加法规则也有自然的扩展,事件可以以几种不同的方式之一发生。
我们将所有这些规则组合成示例,并用示例来结束该部分。
### 至少有一个成功
数据科学家经常使用来自人群的随机样本。 有时候问题就来了,就是人群中的一个特定个体选进样本的可能性。为了找出几率,这个人被称为“成功”,问题是要找到样本包含成功的几率。
要看看如何计算这样的几率,我们从一个更简单的设定开始:投掷硬币两次。
如果你投掷硬币两次,有四个等可能的结果:HH,HT,TH 和 TT。 我们把正面缩写为 H ,反面缩写为 T。至少有一个正面的几率是 3/4。
得出这个答案的另一种方法是,弄清楚如果你不能得到至少一个正面,会发生什么事情:这两次投掷都必须是反面。所以:
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Bat%20least%20one%20head%20in%20two%20tosses%7D%29%20%7E%3D%7E%201%20-%20P%28%5Cmbox%7Bboth%20tails%7D%29%20%7E%3D%7E%201%20-%20%5Cfrac%7B1%7D%7B4%7D%20%7E%3D%7E%20%5Cfrac%7B3%7D%7B4%7D)
要注意根据乘法规则:
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Bboth%20tails%7D%29%20%7E%3D%7E%20%5Cfrac%7B1%7D%7B4%7D%20%7E%3D%7E%20%5Cfrac%7B1%7D%7B2%7D%20%5Ccdot%20%5Cfrac%7B1%7D%7B2%7D%20%7E%3D%7E%20%5Cleft%28%5Cfrac%7B1%7D%7B2%7D%5Cright%29%5E2)
这两个观察使我们能够在任何给定数量的投掷中找到至少一个正面的几率。 例如:
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Bat%20least%20one%20head%20in%2017%20tosses%7D%29%20%7E%3D%7E%201%20-%20P%28%5Cmbox%7Ball%2017%20are%20tails%7D%29%20%7E%3D%7E%201%20-%20%5Cleft%28%5Cfrac%7B1%7D%7B2%7D%5Cright%29%5E%7B17%7D)
而现在我们有能力找到在骰子的投掷中,六点至少出现一次的几率:
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Ba%20single%20roll%20is%20not%206%7D%29%20%7E%3D%7E%20P%281%29%20+%20P%282%29%20+%20P%283%29%20+%20P%284%29%20+%20P%285%29%20%7E%3D%7E%20%5Cfrac%7B5%7D%7B6%7D)
![](http://latex.codecogs.com/gif.latex?P%28%5Cmbox%7Bat%20least%20one%206%20in%20two%20rolls%7D%29%20%7E%3D%7E%201%20-%20P%28%5Cmbox%7Bboth%20rolls%20are%20not%206%7D%29%20%7E%3D%7E%201%20-%20%5Cleft%28%5Cfrac%7B5%7D%7B6%7D%5Cright%29%5E2%20%24%24%20and%20%24%24%20P%28%5Cmbox%7Bat%20least%20one%206%20in%2017%20rolls%7D%29%20%7E%3D%7E%201%20-%20%5Cleft%28%5Cfrac%7B5%7D%7B6%7D%5Cright%29%5E%7B17%7D)
下表展示了,这些概率随着投掷数量从 1 增加到 50 而增加。
```py
rolls = np.arange(1, 51, 1)
results = Table().with_columns(
'Rolls', rolls,
'Chance of at least one 6', 1 - (5/6)**rolls
)
results
```
| Rolls | Chance of at least one 6 |
| --- | --- |
| 1 | 0.166667 |
| 2 | 0.305556 |
| 3 | 0.421296 |
| 4 | 0.517747 |
| 5 | 0.598122 |
| 6 | 0.665102 |
| 7 | 0.720918 |
| 8 | 0.767432 |
| 9 | 0.806193 |
| 10 | 0.838494 |
(省略了 40 行)
随着投掷数量的增加,六点至少出现一次的几率迅速增加。
```py
results.scatter('Rolls')
```
在 50 次投掷中,你几乎肯定能得到至少一个六。
```py
results.where('Rolls', are.equal_to(50))
```
| Rolls | Chance of at least one 6 |
| --- | --- |
| 50 | 0.99989 |
像这样的计算可以用来找到,随机样本中选择特定个体的几率。 准确的计算将取决于抽样方案。 但是我们上面的观察的通常可以被推广:增加随机样本的大小增加了选择个体的几率。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册