提交 230fe4ca 编写于 作者: L liuyixi520

update 02.md

上级 1c3ef7a0
......@@ -26,26 +26,26 @@
图 3.1:一块来自卢浮宫的苏美尔石碑,显示了一份房屋和田地的销售合同。
让我们用一个更真实的数据集来看一些使用表的例子。在本书中,我们将使用[国家健康和营养调查(NHANES)](https://www.cdc.gov/nchs/nhanes/index.htm) 数据集。这是一项正在进行的研究,它根据许多不同的自变量评估了美国个体样本的健康和营养状况。我们将使用可用于 R 统计软件包的数据集版本。对于这个例子,我们将看一个简单的变量,在数据集中称*PhysActive* 。此变量包含三个不同值中的一个:“是”或“否”(表示此人是否报告从事“中等或剧烈强度的运动、健身或娱乐活动”),如果此人的数据缺失,则为“NA”(Not A number)。导致数据丢失有不同的原因;例如,这个问题不是向 12 岁以下的儿童提出的,而在其他情况下,成年人可能拒绝在访谈中回答这个问题,或者访谈者在他们的表格上记录的答案可能无法阅读。
让我们用一个更真实的数据集来看一些使用表的例子。在本书中,我们将使用[国家健康和营养调查(NHANES)](https://www.cdc.gov/nchs/nhanes/index.htm) 数据集。这是一项正在进行的研究,它根据许多不同的变量评估了美国个体样本的健康和营养状况。我们将使用R统计软件包的数据集版本。对于这个例子,我们将看一个简单的变量,在数据集中称之*PhysActive* 。此变量包含三个不同值中的一个:“是”或“否”(表示此人是否报告从事“中等或剧烈强度的运动、健身或娱乐活动”),如果此人的数据缺失,则为“NA”(Not A number)。导致数据丢失有不同的原因;例如,这个问题不是向 12 岁以下的儿童提出的,而在其他情况下,成年人可能拒绝在访谈中回答这个问题,或者访谈者在他们的表格上记录的答案可能无法阅读。
### 3.2.1 频率分布
*分布*描述了数据如何在不同的可能值之间划分。对于这个例子,让我们看看有多少人属于一种体育活动类别。
*分布*描述了数据如何在不同的可能值之间划分。对于这个例子,让我们看看有多少人属于一种体育活动类别。
<caption>Table 3.1: Frequency distribution for PhysActive variable</caption>
| 物理活性的 | 绝对频率 |
| --- | --- |
| 不 | Two thousand four hundred and seventy-three |
| 是 | Two thousand nine hundred and seventy-two |
| | One thousand three hundred and thirty-four |
| 缺失 | One thousand three hundred and thirty-four |
[3.1](#tab:PhysActiveTable) 显示了每个不同值的频率;有 2473 人对该问题回答“否”,2972 人回答“是”,1334 人没有回答。我们称之为*频率分布*,因为它告诉我们每个可能值在样本中出现的频率。
这向我们展示了两个回答的绝对频率,对于每个实际给出回答的人来说。由此我们可以看出,说“是”的人比说“不是”的人多,但从绝对数字上很难看出相对数字上的差别有多大。出于这个原因,我们通常宁愿使用*相对频率*来表示数据,相对频率是通过将每个频率除以所有频率的总和而获得的:
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>r</mi><mi>e</mi><mi>l</mi><mi>a</mi><mi>t</mi><mi>I</mi><mi>v</mi><mi>e</mi><mi>f</mi><mi>r</mi><mi>e</mi><mi>q</mi><mi>u<mi>e</mi><mi>n</mi> u</mi><mi>t</mi><mi>e</mi><mi>f</mi><mi>r</mi><mi>e</mi><mi>q</mi><mi>u</mi><mi>e</mi><mi>N</mi><mi>c</mi><msub><mi>y</mi><mi>I</mi> t<mi>e</mi><mi>f</mi><mi>r</mi><mi>e</mi><mi>q</mi><mi>u</mi><mi>e</mi><mi>n</mi><mi>c</mi><msub><mi>y</mi><mi>j</mi> 我们也可以将相对频率乘以 100,解释为百分比。在本例中,我们也将去掉 NA 值,因为我们希望能够解释活跃人群与不活跃人群的相对频率。然而,为了使这有意义,我们必须假设 NA 值是“随机”缺失的,这意味着它们的存在与否与该人变量的真实值无关。例如,如果不活跃的参与者比活跃的参与者更有可能拒绝回答问题,那么这将使我们对身体活动频率的估计产生偏差,这意味着我们的估计将与真实值不同。</msub></msub></mrow></semantics></math>
<math xmlns:epub="http://www.idpf.org/2007/ops" display="block"><semantics><mrow><mi>r</mi><mi>e</mi><mi>l</mi><mi>a</mi><mi>t</mi><mi>I</mi><mi>v</mi><mi>e</mi><mi>f</mi><mi>r</mi><mi>e</mi><mi>q</mi><mi>u<mi>e</mi><mi>n</mi> u</mi><mi>t</mi><mi>e</mi><mi>f</mi><mi>r</mi><mi>e</mi><mi>q</mi><mi>u</mi><mi>e</mi><mi>N</mi><mi>c</mi><msub><mi>y</mi><mi>I</mi> t<mi>e</mi><mi>f</mi><mi>r</mi><mi>e</mi><mi>q</mi><mi>u</mi><mi>e</mi><mi>n</mi><mi>c</mi><msub><mi>y</mi><mi>j</mi> 我们也可以将相对频率乘以 100,解释为百分比。在本例中,我们也将去掉 NA 值,因为我们希望能够解释活跃人群与不活跃人群的相对频率。然而,为了使这有意义,我们必须假设 NA 值是“随机”缺失的,这意味着它们的存在与否与该人特征的真实值无关。例如,如果不活跃的参与者比活跃的参与者更有可能拒绝回答问题,那么这将使我们对身体活动频率的估计产生偏差,这意味着我们的估计将与真实值不同。</msub></msub></mrow></semantics></math>
<caption>Table 3.2: Absolute and relative frequencies and percentages for PhysActive variable</caption>
| 物理活性的 | 绝对频率 | 相对频率 | 百分率 |
......@@ -61,9 +61,9 @@
### 3.2.2 累积分布
我们上面检查的*physical active*变量只有两个可能的值,但我们通常希望汇总具有更多可能值的数据。当这些值是定量的时,那么总结它们的一个有用的方法是通过我们所谓的*累积*频率表示:不是问有多少观察值具有特定值,而是问有多少具有某个特定值*或更少*
我们上面检查的*physical active*变量只有两个可能的值,但我们通常希望汇总具有更多可能值的数据。当这些值是定量的时,那么汇总它们的一个有用的方法是通过我们所谓的*累积*频率表示:不是问有多少观察样本具有特定值,而是问有多少样本在小于某个值的区间里分布
让我们看看 NHANES 数据集中的另一个变量,名为 *SleepHrsNight* ,它记录了参与者报告在平常工作日睡眠的时间。表 [3.3](#tab:sleepTable) 显示了我们如上所述创建的频率表,在此问题中删除了任何缺失数据。我们已经可以通过查看表格来总结数据集;例如,我们可以看到大多数人报告的睡眠时间在 6 到 8 小时之间。为了更清楚地看到这一点,我们可以绘制一个*直方图*,它显示了具有不同值的情况的数量;见图 [3.2](#fig:sleepHist) 左图。我们还可以绘制相对频率,我们通常称之为*密度* -参见图 [3.2](#fig:sleepHist) 的右图。
让我们看看 NHANES 数据集中的另一个变量,名为 *SleepHrsNight* ,它记录了参与者在平常工作日睡眠的时间。表 [3.3](#tab:sleepTable) 显示了我们如上所述创建的频率表,报告在此问题中删除有缺失样本。我们已经可以通过查看表格来总结数据集;例如,我们可以看到大多数人报告的睡眠时间在 6 到 8 小时之间。为了更清楚地看到这一点,我们可以绘制一个*直方图*,它显示了具有不同值的情况的数量;见图 [3.2](#fig:sleepHist) 左图。我们还可以绘制相对频率,我们通常称之为*密度* -参见图 [3.2](#fig:sleepHist) 的右图。
<caption>Table 3.3: Frequency distribution for number of hours of sleep per night in the NHANES dataset</caption>
| 睡眠之夜 | 绝对频率 | 相对频率 | 百分率 |
......@@ -103,7 +103,7 @@
| Eleven | Fifteen | Five thousand and eighteen |
| Twelve | Seventeen | Five thousand and thirty-five |
让我们为我们的睡眠变量这样做,计算绝对和累积频率。在图 [3.3](#fig:sleepAbsCumulRelFreq) 的左图中,我们绘制了数据,看看这些表示是什么样子;绝对频率值用实线绘制,累积频率用虚线绘制。我们看到,累积频率是*单调增加的*——也就是说,它只能上升或保持不变,但永远不会下降。同样,我们通常发现相对频率比绝对频率更有用;这些绘制在图 [3.3](#fig:sleepAbsCumulRelFreq) 的右侧面板中。重要的是,相对频率图的形状与绝对频率图完全相同,只是数值的大小发生了变化。
让我们睡眠变量做同样的事情,即计算绝对和累积频率。在图 [3.3](#fig:sleepAbsCumulRelFreq) 的左图中,我们绘制了数据,看看这些表示是什么样子;绝对频率值用实线绘制,累积频率用虚线绘制。我们看到,累积频率是*单调增加的*——也就是说,它只能上升或保持不变,但永远不会下降。同样,我们通常发现相对频率比绝对频率更有用;这些绘制在图 [3.3](#fig:sleepAbsCumulRelFreq) 的右侧面板中。重要的是,相对频率图的形状与绝对频率图完全相同,只是数值的大小发生了变化。
![A plot of the relative (solid) and cumulative relative (dashed) values for frequency (left) and proportion (right) for the possible values of SleepHrsNight.](img/file4.png)
......@@ -119,9 +119,9 @@
图 3.4:NHANES 中年龄(左)和身高(右)变量的直方图。
我们上面检查的变量相当简单,只有几个可能的值。现在我们来看一个更复杂的变量:年龄。首先让我们绘制 NHANES 数据集中所有个体的*年龄*变量(见图 [3.4](#fig:ageHist) 的左图)。你在那里看到了什么?首先,你应该注意到,随着时间的推移,每个年龄组的人数都在下降。这是有道理的,因为人口是随机抽样的,因此随着时间的推移,死亡导致越来越少的人进入老年范围。第二,你可能会注意到在 80 岁时图表中有一个很大的峰值。你觉得这是怎么回事?
上面我们要检查的变量相当简单,只有几个可能的值。现在我们来看一个更复杂的变量:年龄。首先让我们绘制 NHANES 数据集中所有个体的*年龄*变量(见图 [3.4](#fig:ageHist) 的左图)。你在那里看到了什么?首先,你应该注意到,随着时间的推移,每个年龄组的人数都在下降。这是有道理的,因为人口是随机抽样的,因此随着时间的推移,死亡导致越来越少的人进入老年范围。第二,你可能会注意到在 80 岁时图表中有一个很大的峰值。你觉得这是怎么回事?
如果我们要查找关于 NHANES 数据集的信息,我们会看到对*年龄*变量的如下定义:“研究参与者筛选时的年龄。注:80 岁以上的受试者记录为 80 岁。这样做的原因是,如果您知道数据集中特定人的确切年龄,那么相对较少的年龄很大的人可能更容易识别他们;研究人员通常向他们的参与者承诺对他们的身份保密,这是他们可以帮助保护他们的研究对象的事情之一。这也强调了这样一个事实,即知道一个人的数据来自哪里以及它们是如何被处理的总是很重要的;否则我们可能会不恰当地解释它们,认为 80 岁的人在样本中不知何故被过多地代表了。
如果我们要查找关于 NHANES 数据集的信息,我们会看到对*年龄*变量的如下定义:“研究参与者筛选时的年龄。注:80 岁以上的受试者记录为 80 岁。这样做的原因是,如果您知道数据集中特定人的确切年龄,那么相对较少的年龄很大的人可能更容易找到他们;研究人员通常向他们的参与者承诺对他们的身份保密,这是他们去保护他们的研究对象的事情之一。这也强调了这样一个事实,即知道一个人的数据来自哪里以及它们是如何被处理的总是很重要的;否则我们可能会不恰当地解释它们,认为 80 岁的人在样本中不知何故被过多地代表了。
让我们看看 NHANES 数据集中另一个更复杂的变量:Height。在图 [3.4](#fig:ageHist) 的右侧面板中绘制了高度值的直方图。关于这个分布,你应该注意到的第一件事是,它的密度大部分集中在 170 cm 左右,但分布在左侧有一个“尾巴”;有少数个体的高度要小得多。你认为这是怎么回事?
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册