怎么能将所有这些整合在一起对我们来说真是太神奇了。 现在,您将看到一些`NaN`值,它们代表**而不是数字**,以及Pandas如何指示缺失值。 因此,这种解释的方式是,例如`user_id`数字`1`没看电影`1-900 (1994)`,但是`user_id`数字`1`却看了`101 Dalmatians (1996)`并将它评为`2`星。 `user_id`数字`1`也观看了`12 Angry Men (1957)`并将其评为`5`星,但没有观看电影`2 Days in the Valley (1996)`,例如,好吗? 因此,我们最终得到的基本上是一个稀疏矩阵,其中包含每个用户和每个电影,并且在用户对电影进行评分的每个路口处都有一个评分值。
怎么能将所有这些整合在一起对我们来说真是太神奇了。 现在,您将看到一些`NaN`值,它们代表**非数字**,以及Pandas如何指示缺失值。 因此,这种解释的方式是,例如`user_id`数字`1`没看电影`1-900 (1994)`,但是`user_id`数字`1`却看了`101 Dalmatians (1996)`并将它评为`2`星。 `user_id`数字`1`也观看了`12 Angry Men (1957)`并将其评为`5`星,但没有观看电影`2 Days in the Valley (1996)`,例如,好吗? 因此,我们最终得到的基本上是一个稀疏矩阵,其中包含每个用户和每个电影,并且在用户对电影进行评分的每个路口处都有一个评分值。
***离群值**:因此,也许您的人员在数据中表现得有些奇怪,而当您对它们进行挖掘时,它们却是您不应该首先关注的数据。 一个很好的例子是,如果您正在查看 Web 日志数据,并且看到一个会话 ID 不断地反复出现,并且它以人们永远无法完成的高速度执行某项操作。 您可能会看到一个机器人,该脚本正在某个地方运行以实际抓取您的网站。 甚至可能是某种恶意攻击。 但是无论如何,您都不希望这些行为数据通知您的模型,这些数据只能用来预测使用您的网站的真实人类的行为。 因此,监视异常值是识别在构建模型时可能希望从模型中删除的数据类型的一种方法。