让我们用一个更真实的数据集来看一些使用表的例子。在本书中,我们将使用[国家健康和营养调查(NHANES)](https://www.cdc.gov/nchs/nhanes/index.htm) 数据集。这是一项正在进行的研究,它根据许多不同的自变量评估了美国个体样本的健康和营养状况。我们将使用可用于 R 统计软件包的数据集版本。对于这个例子,我们将看一个简单的变量,在数据集中称为 *PhysActive* 。此变量包含三个不同值中的一个:“是”或“否”(表示此人是否报告从事“中等或剧烈强度的运动、健身或娱乐活动”),如果此人的数据缺失,则为“NA”(Not A number)。导致数据丢失有不同的原因;例如,这个问题不是向 12 岁以下的儿童提出的,而在其他情况下,成年人可能拒绝在访谈中回答这个问题,或者访谈者在他们的表格上记录的答案可能无法阅读。
让我们用一个更真实的数据集来看一些使用表的例子。在本书中,我们将使用[国家健康和营养调查(NHANES)](https://www.cdc.gov/nchs/nhanes/index.htm) 数据集。这是一项正在进行的研究,它根据许多不同的变量评估了美国个体样本的健康和营养状况。我们将使用R统计软件包的数据集版本。对于这个例子,我们将看一个简单的变量,在数据集中称之为 *PhysActive* 。此变量包含三个不同值中的一个:“是”或“否”(表示此人是否报告从事“中等或剧烈强度的运动、健身或娱乐活动”),如果此人的数据缺失,则为“NA”(Not A number)。导致数据丢失有不同的原因;例如,这个问题不是向 12 岁以下的儿童提出的,而在其他情况下,成年人可能拒绝在访谈中回答这个问题,或者访谈者在他们的表格上记录的答案可能无法阅读。
<mathxmlns:epub="http://www.idpf.org/2007/ops"display="block"><semantics><mrow><mi>r</mi><mi>e</mi><mi>l</mi><mi>a</mi><mi>t</mi><mi>I</mi><mi>v</mi><mi>e</mi><mi>f</mi><mi>r</mi><mi>e</mi><mi>q</mi><mi>u<mi>e</mi><mi>n</mi> u</mi><mi>t</mi><mi>e</mi><mi>f</mi><mi>r</mi><mi>e</mi><mi>q</mi><mi>u</mi><mi>e</mi><mi>N</mi><mi>c</mi><msub><mi>y</mi><mi>I</mi> t<mi>e</mi><mi>f</mi><mi>r</mi><mi>e</mi><mi>q</mi><mi>u</mi><mi>e</mi><mi>n</mi><mi>c</mi><msub><mi>y</mi><mi>j</mi> 我们也可以将相对频率乘以 100,解释为百分比。在本例中,我们也将去掉 NA 值,因为我们希望能够解释活跃人群与不活跃人群的相对频率。然而,为了使这有意义,我们必须假设 NA 值是“随机”缺失的,这意味着它们的存在与否与该人变量的真实值无关。例如,如果不活跃的参与者比活跃的参与者更有可能拒绝回答问题,那么这将使我们对身体活动频率的估计产生偏差,这意味着我们的估计将与真实值不同。</msub></msub></mrow></semantics></math>
<mathxmlns:epub="http://www.idpf.org/2007/ops"display="block"><semantics><mrow><mi>r</mi><mi>e</mi><mi>l</mi><mi>a</mi><mi>t</mi><mi>I</mi><mi>v</mi><mi>e</mi><mi>f</mi><mi>r</mi><mi>e</mi><mi>q</mi><mi>u<mi>e</mi><mi>n</mi> u</mi><mi>t</mi><mi>e</mi><mi>f</mi><mi>r</mi><mi>e</mi><mi>q</mi><mi>u</mi><mi>e</mi><mi>N</mi><mi>c</mi><msub><mi>y</mi><mi>I</mi> t<mi>e</mi><mi>f</mi><mi>r</mi><mi>e</mi><mi>q</mi><mi>u</mi><mi>e</mi><mi>n</mi><mi>c</mi><msub><mi>y</mi><mi>j</mi> 我们也可以将相对频率乘以 100,解释为百分比。在本例中,我们也将去掉 NA 值,因为我们希望能够解释活跃人群与不活跃人群的相对频率。然而,为了使这有意义,我们必须假设 NA 值是“随机”缺失的,这意味着它们的存在与否与该人特征的真实值无关。例如,如果不活跃的参与者比活跃的参与者更有可能拒绝回答问题,那么这将使我们对身体活动频率的估计产生偏差,这意味着我们的估计将与真实值不同。</msub></msub></mrow></semantics></math>
<caption>Table 3.2: Absolute and relative frequencies and percentages for PhysActive variable</caption>
![A plot of the relative (solid) and cumulative relative (dashed) values for frequency (left) and proportion (right) for the possible values of SleepHrsNight.](img/file4.png)