# 使用 Python 和 Pandas 为机器学习准备数据

> 原文： [https://machinelearningmastery.com/prepare-data-for-machine-learning-in-python-with-pandas/](https://machinelearningmastery.com/prepare-data-for-machine-learning-in-python-with-pandas/)

如果您使用 Python 栈来学习和应用机器学习，那么您将要用于数据分析和数据操作的库是 Pandas。

这篇文章为您提供了熊猫库的快速介绍，并指出了正确的入门方向。

[![pandas for data analysis](img/3bc3a262f55efff00379805f454d39f4.jpg)](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2014/06/pandas-for-data-analysis.jpg)

用于数据分析的熊猫。
照 [gzlu](https://www.flickr.com/photos/gzlu/7708872342) ，保留一些权利。

## Python 中的数据分析

Python SciPy 栈通常适用于科学计算。它提供了强大的库来处理网格数据（如 NumPy）和绘图（如 matplotlib）。直到最近，套件中缺少的一个部件才是处理数据的好库。

数据通常不是以易于使用的形式出现的。处理机器学习等数据驱动问题的很大一部分是数据分析和数据调整。

*   **数据分析**：这是使用统计和数据可视化等工具，通过了解数据来更好地理解问题。
*   **Data Munging** ：这是将原始数据转换为表格的过程，以便适合您的工作，如数据分析或机器学习。

传统上，您必须在 Python 中拼凑自己的脚本工具链来执行这些任务。

如今，如果您在 Python 中搜索数据分析，则无法避免了解 Pandas。它已迅速成为 Python 中数据处理的首选库。

## 什么是熊猫？

Pandas 是一个用于数据分析和数据操作的 Python 库。它将缺少的部分添加到 SciPy 框架以处理数据。

熊猫是由 [Wes McKinney](http://blog.wesmckinney.com/) 于 2008 年创建的，主要用于量化金融工作。因此，它在处理时间序列数据和图表方面具有坚实的基础。

您使用 Pandas 将数据加载到 Python 中并执行数据分析任务。它非常适合处理表格数据，如来自关系数据库的数据或来自电子表格的数据。

Wes 描述了 Pandas 对 crate 的看法：用于任何语言的最强大，最灵活的开源数据分析和操作工具。

如果只是为了让您自己的数据分析工作变得更容易，那么这项令人钦佩的任务就是让您想要支持他的事业。

## 熊猫特色

熊猫是一种乐趣。

根据我的经验，它简单，优雅，直观。来自 R，成语和操作是熟悉和相关的。

Pandas 构建在 SciPy 栈中的标准库之上。它使用 NumPy 进行快速数组处理，并为 StatsModels 的一些统计操作和 Matplotlib 的图表提供方便的包装。

鉴于库在金融领域的开始，人们非常关注时间序列。它还非常关注用于处理标准网格数据的数据帧。数据处理是此类库的核心要求，速度已成为优先事项。它速度快，提供数据结构和操作，如索引和稀疏性处理。

需要注意的一些重要功能包括“

*   **操纵**：移动列，切片，整形，合并，连接，过滤等。
*   **时间序列处理**：对日期/时间，重新采样，移动窗口和数据集自动对齐的操作。
*   **缺少数据处理**：自动排除，删除，替换，插入缺失值
*   **分组操作**：SQL like group by。
*   **分层索引**：数据结构级别，对按列有效组织数据非常有用。
*   **摘要统计**：快速而强大的数据汇总统计。
*   **可视化**：简化了对数据结构图的访问，例如直方图，箱形图，一般图和散点图。

Pandas 在许可许可证（Simplified BSD）下可用，并且可以与 SciPy 的其余部分一起轻松安装。

## 熊猫资源

这是对熊猫库的快速介绍，还有更多需要学习的内容。安装库，获取数据集并开始尝试。没有更好的入门方式。

访问 [Pandas 主页](http://pandas.pydata.org)并阅读库愿景和功能。您也可以查看项目的 [github 页面](https://github.com/pydata/pandas)。

一个很好的起点是[教程列表](http://pandas.pydata.org/pandas-docs/stable/tutorials.html)，其中包括指向网络上的烹饪书，课程和各种着名的 IPython 笔记本的链接。

最后，对我来说，我住在 [API 文档](http://pandas.pydata.org/pandas-docs/stable/api.html)中。

### 文件

我发现论文可以很好地概述开源库，特别是在 Python 和 R 生态系统中。请查看以下论文，了解熊猫的全部内容。

*   [Python 中统计计算的数据结构](http://scholar.google.com/scholar?hl=en&q=Data+Structures+for+Statistical+Computing+in+Python)
*   [pandas：用于数据分析和统计的基础 Python 库](http://scholar.google.com/scholar?q=pandas%3A+a+Foundational+Python+Library+for+Data+Analysis+and+Statistics)

### 影片

YouTube 上有很多关于人们在自己的数据和会议上展示 Pandas 的精彩视频。

一个很好的起点是 Wes 自己 [10 分钟的熊猫之旅](http://vimeo.com/59324550)。看一看。这是一个很小的时间序列数据，但它是一个伟大而快速的概述。您还可以查看他的 [IPython 笔记本进行本次巡演](http://nbviewer.ipython.org/urls/gist.github.com/wesm/4757075/raw/a72d3450ad4924d0e74fb57c9f62d1d895ea4574/PandasTour.ipynb)。

### 图书

[![Amazon Image](img/5c5b56437fa133b5ee981c458449e64f.jpg)](http://www.amazon.com/dp/1449319793?tag=inspiredalgor-20) 最后，Wes 是 Python 中关于数据分析的权威书籍的作者。如果你想认真练习，还要考虑抓住这本书。它被称为：[用于数据分析的 Python：与 Pandas，NumPy 和 IPython](http://www.amazon.com/dp/1449319793?tag=inspiredalgor-20) 进行数据争夺。