观察是良好科学的关键。观察性研究是一项研究,科学家根据他们所观察到的,但却无法产生的数据作出结论。在数据科学中,许多这样的研究涉及对一组个体的观察,称为处理方式(treatment)的利害关系(factor of interest),以及对每个个体的测量结果。将个体视为人是最容易的。在研究巧克力是否对健康有好处时,个体确实是人,处理方式是吃巧克力,结果可能是血压的测量。但观察研究中的个体不一定是人。在研究死刑是否具有威慑作用时,个体可以为联盟的 50 个州。允许死刑的州的法律是处理方式,结果可能是州的谋杀率。根本问题是处理方式是否对结果有影响。处理方式和结果之间的任何关系被称为关联。如果处理方式导致结果发生,那么这个关联是因果关系。因果关系是本节开头提出的所有三个问题的核心。例如,问题之一是巧克力是否直接导致健康状况的改善,而不是巧克力与健康之间是否存在关联。因果关系的建立往往分两个阶段进行。首先,观察一个关联。接下来,更仔细的分析决定了因果关系。