提交 77f2b13e 编写于 作者: W wizardforcel

2021-02-20 20:30:13

上级 a4b33a72
......@@ -998,7 +998,7 @@ MIDDLE/HIGH 53089 59.251116 65.905591
在本章中,我们熟悉了 NumPy 和 pandas 软件包。 我们了解了熊猫中不同的数据类型以及如何利用它们。 我们学习了如何执行数据清除和操作,其中我们处理了缺失值并执行了字符串操作。 本章为我们提供了数据科学的基础,您可以通过单击以下链接来更深入地了解 NumPy 和熊猫:
* **NumPy** **文档**[http://docs.scipy.org/doc/](http://docs.scipy.org/doc/)
* **大熊猫** **文档**[http://pandas.pydata.org/](http://pandas.pydata.org/)
* [**NumPy** **文档**](http://docs.scipy.org/doc/)
* [**大熊猫** **文档**](http://pandas.pydata.org/)
在下一章中,我们将学习推论统计的含义及其作用,以及如何理解推论统计中的不同概念。
\ No newline at end of file
......@@ -430,7 +430,7 @@ $> conda remove -n python36 --all
**NumPy** 是 Travis Oliphant 的创作,是 Python 语言的真正分析主力。 它为用户提供了多维数组,以及为这些数组进行大量数学运算的大量函数。 数组是沿多个维度排列的数据块,它们实现数学向量和矩阵。 数组具有最佳的内存分配特征,不仅对存储数据有用,而且对快速矩阵运算(矢量化)也很有用,当您希望解决临时数据科学问题时,数组必不可少:
* **网站**[http://www.numpy.org/](http://www.numpy.org/)
* [**网站**](http://www.numpy.org/)
* **打印时的版本**:1.12.1
* **建议的安装命令**`pip install numpy`
......@@ -446,7 +446,7 @@ import numpy as np
SciPy 由 Travis Oliphant,Pearu Peterson 和 Eric Jones 共同发起的原始项目完善了 NumPy 的功能,该功能为线性代数,稀疏矩阵,信号和图像处理,优化,快速傅立叶变换等提供了更多科学算法:
* **网站**[http://www.scipy.org/](http://www.scipy.org/)
* [**网站**](http://www.scipy.org/)
* **打印时的版本**:1.1.0
* **建议的安装命令**``pip install scipy``
......@@ -454,7 +454,7 @@ SciPy 由 Travis Oliphant,Pearu Peterson 和 Eric Jones 共同发起的原始
大熊猫软件包处理 NumPy 和 SciPy 无法执行的所有操作。 借助其特定的数据结构,即 DataFrames 和 Series,pandas 允许您处理不同类型(NumPy 的数组无法执行的操作)和时间序列的复杂数据表。 由于 Wes McKinney 的创造,您将能够轻松,平稳地从各种来源加载数据。 然后,您可以切片,切块,处理丢失的元素,添加,重命名,聚合,重塑形状,最后随意可视化数据:
* **网站**[http://pandas.pydata.org/](http://pandas.pydata.org/)
* [**网站**](http://pandas.pydata.org/)
* **打印时的版本**:0.23.1
* **建议的安装命令**`pip install pandas`
......@@ -477,7 +477,7 @@ import pandas as pd
这是有关此软件包的所有信息:
* **网站**[https://github.com/pandas-profiling/pandas-profiling](https://github.com/pandas-profiling/pandas-profiling)
* [**网站**](https://github.com/pandas-profiling/pandas-profiling)
* **打印时的版本**:1.4.1
* **建议的安装命令**`pip install pandas-profiling`
......@@ -485,7 +485,7 @@ import pandas as pd
作为 **SciKits****SciPy Toolkits** )的一部分开始,Scikit-learn 是 Python 数据科学运算的核心。 它提供了数据预处理,有监督和无监督学习,模型选择,验证和错误度量方面可能需要的所有功能。 希望我们在本书中详细讨论这个软件包。 Scikit-learn 于 2007 年由 David Cournapeau 发起,是一个 Google Summer of Code 项目。 自 2013 年以来,它已由 **INRIA****国家信息和自动化研究所**,即法国计算机科学与自动化研究所)的研究人员接管:
* **网站**[http://Scikit-learn.org/stable](http://scikit-learn.org/stable)
* [**网站**](http://scikit-learn.org/stable)
* **打印时的版本**:0.19.1
* **建议的安装命令**`pip install Scikit-learn`
......@@ -495,7 +495,7 @@ import pandas as pd
科学方法要求以可重复的方式对不同的假设进行快速实验。 Jupyter 最初命名为 IPython,并且仅限于使用 Python 语言,它是由 Fernando Perez 创建的,旨在满足对具有图形化集成的交互式 Python 命令 shell(基于 shell,Web 浏览器和应用程序界面)的需求。 ,可自定义的命令,丰富的历史记录(以 JSON 格式)和计算并行性以提高性能。 Jupyter 是本书中我们最喜欢的选择。 它用于清楚有效地说明脚本和数据的操作及其结果:
* **网站**[http://jupyter.org/](http://jupyter.org/)
* [**网站**](http://jupyter.org/)
* **打印时的版本**:4.4.0(ipykernel = 4.8.2)
* **建议的安装命令**``pip install jupyter``
......@@ -503,7 +503,7 @@ import pandas as pd
**JupyterLab** 是 Jupyter 项目的下一个用户界面,该项目目前处于测试阶段。 它是为交互式和可重复计算而设计的环境,它将以更灵活和强大的用户界面提供所有常用的笔记本,终端,文本编辑器,文件浏览器,丰富的输出等。 JupyterLab 达到 1.0 版后,JupyterLab 最终将取代经典的 Jupyter 笔记本。 因此,我们打算现在介绍此软件包,以使您了解它及其功能:
* **网站**[https://github.com/jupyterlab/jupyterlab](https://github.com/jupyterlab/jupyterlab)
* [**网站**](https://github.com/jupyterlab/jupyterlab)
* **打印时的版本**:0.32.0
* **建议的安装命令**`pip install jupyterlab`
......@@ -513,7 +513,7 @@ matplotlib 最初由 John Hunter 开发,是一个库,其中包含从数组
您可以在 PyLab 模块中找到所有类似 MATLAB 的绘图框架:
* **网站**[http://matplotlib.org/](http://matplotlib.org/)
* [**网站**](http://matplotlib.org/)
* **打印时的版本**:2.2.2
* **建议的安装命令**`pip install matplotlib`
......@@ -527,7 +527,7 @@ import matplotlib.pyplot as plt
由于这个原因,使用 matplotlib 制作漂亮的图形确实非常耗时,Michael Waskom( [http://www.cns.nyu.edu/~mwaskom/](http://www.cns.nyu.edu/~mwaskom/) )开发了 Seaborn,这是一种高级可视化工具 基于 matplotlib 的软件包,并与 pandas 数据结构(例如 Series 和 DataFrames)集成在一起,能够产生信息丰富且美观的统计可视化。
* **网站**[http://seaborn.pydata.org/](http://seaborn.pydata.org/)
* [**网站**](http://seaborn.pydata.org/)
* **打印时的版本**:0.9.0
* **建议的安装命令**`pip install seaborn`
......@@ -541,7 +541,7 @@ import seaborn as sns
`statsmodels`以前是 SciKits 的一部分,被认为是 SciPy 统计功能的补充。 它具有广义线性模型,离散选择模型,时间序列分析,一系列描述性统计以及参数和非参数测试:
* **网站**[http://statsmodels.sourceforge.net/](http://statsmodels.sourceforge.net/)
* [**网站**](http://statsmodels.sourceforge.net/)
* **打印时的版本**:0.9.0
* **建议的安装命令**`pip install statsmodels`
......@@ -549,7 +549,7 @@ import seaborn as sns
**Beautiful Soup** 是 Leonard Richardson 的作品,是一种从 HTML 和 XML 文件中提取数据的出色工具,这些文件是从 Internet 检索的。 即使在*标签汤*(因此得名)的情况下,它的效果也非常好,这些汤是畸形,矛盾和不正确标签的集合。 选择解析器(Python 标准库中包含的 HTML 解析器可以正常工作)之后,借助 Beautiful Soup,您可以浏览页面中的对象并提取文本,表格和其他可能有用的信息:
* **网站**[http://www.crummy.com/software/BeautifulSoup](http://www.crummy.com/software/BeautifulSoup)
* [**网站**](http://www.crummy.com/software/BeautifulSoup)
* **打印时的版本**:4.6.0
* **建议的安装命令**`pip install beautifulsoup4`
......@@ -559,7 +559,7 @@ import seaborn as sns
**NetworkX** 由美国洛斯阿拉莫斯国家实验室开发,是专门用于创建,处理,分析和图形表示真实网络数据的程序包(它可以轻松地使用由一百万个节点组成的图形进行操作, 边缘)。 除了用于图形的专用数据结构和精细的可视化方法(2D 和 3D)之外,它还为用户提供了许多标准的图形度量和算法,例如最短路径,中心,组件,社区,聚类和 PageRank。 我们将在[第 6 章](6.html)*社交网络分析*中主要使用此软件包:
* **网站**[http://networkx.github.io/](http://networkx.github.io/)
* [**网站**](http://networkx.github.io/)
* **打印时的版本**:2.1
* **建议的安装命令**`pip install networkx`
......@@ -573,7 +573,7 @@ import networkx as nx
**自然语言工具包****NLTK** )提供对语料库和词汇资源的访问,以及用于**自然语言处理****NLP** ),从分词器到词性标记器,从树模型到命名实体识别。 最初,史蒂芬·伯德(Steven Bird)和爱德华·洛珀(Edward Loper)创建了该软件包,将其作为宾夕法尼亚大学课程的 NLP 教学基础设施。 现在,它是一个了不起的工具,可用于原型和构建 NLP 系统:
* **网站**[http://www.nltk.org/](http://www.nltk.org/)
* [**网站**](http://www.nltk.org/)
* **打印时的版本**:3.3
* **建议的安装命令**`pip install nltk`
......@@ -581,7 +581,7 @@ import networkx as nx
**Gensim** 由 RadimŘehůřek 编程,是一个开源软件包,适用于借助并行可分配的在线算法分析大型文本集。 在高级功能中,它实现**潜在语义分析****LSA** ),通过**潜在 Dirichlet 分配****LDA** )进行主题建模。 HTG10] word2vec ,一种强大的算法,可将文本转换为矢量特征,可用于有监督和无监督的机器学习:
* **网站**[http://radimrehurek.com/gensim/](http://radimrehurek.com/gensim/)
* [**网站**](http://radimrehurek.com/gensim/)
* **打印时的版本**:3.4.0
* **建议的安装命令**`pip install gensim`
......@@ -589,9 +589,9 @@ import networkx as nx
**PyPy** 不是软件包; 它是 Python 3.5.3 的替代实现,它支持大多数常用的 Python 标准软件包(不幸的是,当前尚未完全支持 NumPy)。 优点是,它可以提高速度和内存处理能力。 因此,对于大数据量的重型操作非常有用,它应该成为大数据处理策略的一部分:
* **网站**[http://pypy.org/](http://pypy.org/)
* [**网站**](http://pypy.org/)
* **打印时的版本**:6.0
* **下载页面**[http://pypy.org/download.html](http://pypy.org/download.html)
* [**下载页面**](http://pypy.org/download.html)
# XGBoost
......@@ -599,7 +599,7 @@ import networkx as nx
* **网站:** [https://xgboost.readthedocs.io/en/latest/](https://xgboost.readthedocs.io/en/latest/)
* **打印时的版本:** 0.80
* **下载页面**[https://github.com/dmlc/xgboost](https://github.com/dmlc/xgboost)
* [**下载页面**](https://github.com/dmlc/xgboost)
可以在[这个页面](https://xgboost.readthedocs.io/en/latest/build.html#)上找到在系统上安装 XGBoost 的详细说明。
......@@ -707,7 +707,7 @@ import lightgbm as lgbm
* **网站:** [https://catboost.yandex](https://catboost.yandex)
* **打印时的版本:** 0.8.1.1
* **建议的安装命令**`pip install catboost`
* **下载页面**[https://github.com/catboost/catboost](https://github.com/catboost/catboost)
* [**下载页面**](https://github.com/catboost/catboost)
CatBoost 需要`msgpack`,可以使用`pip install msgpack`命令轻松安装。
......
......@@ -452,10 +452,10 @@ display(wrangled_df)
数据可视化是另一个非常重要的数据科学任务,对于探索和形成假设来说是必不可少的。 幸运的是,Python 生态系统具有许多强大的库,专门用于数据可视化,例如以下热门示例:
* Matplotlib: [http://matplotlib.org](http://matplotlib.org)
* Seaborn: [https://seaborn.pydata.org](https://seaborn.pydata.org)
* 散景: [http://bokeh.pydata.org](http://bokeh.pydata.org)
* 布鲁内尔: [https://brunelvis.org](https://brunelvis.org)
* [Matplotlib](http://matplotlib.org)
* [Seaborn](https://seaborn.pydata.org)
* [散景](http://bokeh.pydata.org)
* [布鲁内尔](https://brunelvis.org)
但是,类似于数据加载和清理,在 Notebook 中使用这些库可能既困难又耗时。 这些库中的每一个都有各自的编程模型,并且 API 并不总是易于学习和使用的,特别是如果您不是经验丰富的开发人员。 另一个问题是这些库没有与常用数据处理框架(例如 pandas(可能是 Matplotlib 除外)或 Apache Spark)的高层接口,因此,在绘制数据之前需要进行大量数据准备。
......
......@@ -15,11 +15,11 @@
一些 Spark 即服务的云提供商包括:
* Microsoft Azure: [https://azure.microsoft.com/zh-cn/services/hdinsight/apache-spark](https://azure.microsoft.com/en-us/services/hdinsight/apache-spark)
* 亚马逊网络服务: [https://aws.amazon.com/emr/details/spark](https://aws.amazon.com/emr/details/spark)
* Google 云端: [https://cloud.google.com/dataproc](https://cloud.google.com/dataproc)
* Databricks: [https://databricks.com](https://databricks.com)
* IBM Cloud: [https://www.ibm.com/cloud/analytics-engine](https://www.ibm.com/cloud/analytics-engine)
* [Microsoft Azure](https://azure.microsoft.com/en-us/services/hdinsight/apache-spark)
* [亚马逊网络服务](https://aws.amazon.com/emr/details/spark)
* [Google 云端](https://cloud.google.com/dataproc)
* [Databricks](https://databricks.com)
* [IBM Cloud](https://www.ibm.com/cloud/analytics-engine)
### 注意
......
......@@ -36,32 +36,32 @@ Drew 的数据科学 Conway Venn 图现在包括开发人员
# 参考
* DeepQA(IBM): [https://researcher.watson.ibm.com/researcher/view_group_subpage.php?id=2159](https://researcher.watson.ibm.com/researcher/view_group_subpage.php?id=2159)
* *Watson 中的深度解析**McCord**Murdock**Boguraev*[http://brenocon.com/watson_special_issue/03% 20Deep%20parsing.pdf](http://brenocon.com/watson_special_issue/03%20Deep%20parsing.pdf)
* *Jupyter for Data Science**Dan Toomey**Packt Publishing*[https://www.packtpub.com/big-data-and-business- 情报/ jupyter-data-science](https://www.packtpub.com/big-data-and-business-intelligence/jupyter-data-science)
* PixieDust 文档: [https://pixiedust.github.io/pixiedust/](https://pixiedust.github.io/pixiedust/)
* *您一直想要的 Jupyter 笔记本的 Visual Python 调试器**David Taieb*[https://medium.com/ibm-watson-data-lab/the-visual -python-debugger-for-jupyter-notebooks-youve 总是想要的-761713babc62](https://medium.com/ibm-watson-data-lab/the-visual-python-debugger-for-jupyter-notebooks-youve-always-wanted-761713babc62)
* *在网络上共享 Jupyter 笔记本图表**David Taieb*[https://medium.com/ibm-watson-data-lab/share-your-jupyter-notebook 网上图表-43e190df4adb](https://medium.com/ibm-watson-data-lab/share-your-jupyter-notebook-charts-on-the-web-43e190df4adb)
* *使用 PixieDust 1.1 版**David Taieb*[https://medium.com/ibm-watson-data-lab/deploy-your-analytics 作为 Web 应用程序将分析部署为 Web 应用程序 网路应用程式使用 pixiedusts-1-1 版本-d08067584a14](https://medium.com/ibm-watson-data-lab/deploy-your-analytics-as-web-apps-using-pixiedusts-1-1-release-d08067584a14)
* Kubernetes: [https://kubernetes.io/docs/home/](https://kubernetes.io/docs/home/)
* 字云: [https://amueller.github.io/word_cloud/index.html](https://amueller.github.io/word_cloud/index.html)
* *神经网络与深度学习**Michael Nielsen*[http://neuralnetworksanddeeplearning.com/index.html](http://neuralnetworksanddeeplearning.com/index.html)
* *深度学习**伊恩·古德费洛**Yoshua Bengio**Aaron Courville**麻省理工学院出版社*[http://www.deeplearningbook.org/](http://www.deeplearningbook.org/)
* TensorFlow 文档站点: [https://www.tensorflow.org/](https://www.tensorflow.org/)
* *TensorFlow For Poets*[https://codelabs.developers.google.com/codelabs/tensorflow-for-poets](https://codelabs.developers.google.com/codelabs/tensorflow-for-poets)
* *Tensorflow 和深度学习-没有博士学位,MartinGörner*[https://www.youtube.com/watch?v=vq2nnJ4g6N0](https://www.youtube.com/watch?v=vq2nnJ4g6N0)
* Apache Spark: [https://spark.apache.org/](https://spark.apache.org/)
* Tweepy 库文档: [http://tweepy.readthedocs.io/en/latest/](http://tweepy.readthedocs.io/en/latest/)
* *Watson Developer Cloud Python SDK*[https://github.com/watson-developer-cloud/python-sdk](https://github.com/watson-developer-cloud/python-sdk)
* Kafka-Python: [https://kafka-python.readthedocs.io/en/master/usage.html](https://kafka-python.readthedocs.io/en/master/usage.html)
* *使用 Spark**David Taieb* 的 Twitter Hashtag 的情感分析: [https://medium.com/ibm-watson-data-lab/real-time-sentiment-analysis- 带有 spark-7ee6ca5c1585 的 Twitter 哈希标签](https://medium.com/ibm-watson-data-lab/real-time-sentiment-analysis-of-twitter-hashtags-with-spark-7ee6ca5c1585)
* *使用统计和机器学习模型的时间序列预测**Jeffrey Yau*[https://www.youtube.com/watch?v=_vQ0W_qXMxk](https://www.youtube.com/watch?v=_vQ0W_qXMxk)
* *时间序列预测理论**Analytics University*[https://www.youtube.com/watch?v=Aw77aMLj9uM](https://www.youtube.com/watch?v=Aw77aMLj9uM)
* *时间序列分析-PyCon 2017**Aileen Nielsen*[https://www.youtube.com/watch?v=zmfe2RaX-14](https://www.youtube.com/watch?v=zmfe2RaX-14)
* Quandl Python 文档: [https://docs.quandl.com/docs/python](https://docs.quandl.com/docs/python)
* Statsmodels 文档: [https://www.statsmodels.org/stable/index.html](https://www.statsmodels.org/stable/index.html)
* NetworkX: [https://networkx.github.io/documentation/networkx-2.1/index.html](https://networkx.github.io/documentation/networkx-2.1/index.html) GeoJSON 规范: [http://geojson.org/](http://geojson.org/)
* *Beautiful Soup 文档*[https://www.crummy.com/software/BeautifulSoup/bs4/doc](https://www.crummy.com/software/BeautifulSoup/bs4/doc)
* [DeepQA(IBM)](https://researcher.watson.ibm.com/researcher/view_group_subpage.php?id=2159)
* [*Watson 中的深度解析*, *McCord* , *Murdock* , *Boguraev* ](http://brenocon.com/watson_special_issue/03%20Deep%20parsing.pdf)
* [*Jupyter for Data Science* , *Dan Toomey* , *Packt Publishing* ](https://www.packtpub.com/big-data-and-business-intelligence/jupyter-data-science)
* [PixieDust 文档](https://pixiedust.github.io/pixiedust/)
* [*您一直想要的 Jupyter 笔记本的 Visual Python 调试器*, *David Taieb* ](https://medium.com/ibm-watson-data-lab/the-visual-python-debugger-for-jupyter-notebooks-youve-always-wanted-761713babc62)
* [*在网络上共享 Jupyter 笔记本图表*, *David Taieb* ](https://medium.com/ibm-watson-data-lab/share-your-jupyter-notebook-charts-on-the-web-43e190df4adb)
* [*使用 PixieDust 1.1 版*, *David Taieb* ](https://medium.com/ibm-watson-data-lab/deploy-your-analytics-as-web-apps-using-pixiedusts-1-1-release-d08067584a14)
* [Kubernetes](https://kubernetes.io/docs/home/)
* [字云](https://amueller.github.io/word_cloud/index.html)
* [*神经网络与深度学习*, *Michael Nielsen* ](http://neuralnetworksanddeeplearning.com/index.html)
* [*深度学习*,*伊恩·古德费洛*, *Yoshua Bengio* 和 *Aaron Courville* ,*麻省理工学院出版社*](http://www.deeplearningbook.org/)
* [TensorFlow 文档站点](https://www.tensorflow.org/)
* [*TensorFlow For Poets* ](https://codelabs.developers.google.com/codelabs/tensorflow-for-poets)
* [*Tensorflow 和深度学习-没有博士学位,MartinGörner*](https://www.youtube.com/watch?v=vq2nnJ4g6N0)
* [Apache Spark](https://spark.apache.org/)
* [Tweepy 库文档](http://tweepy.readthedocs.io/en/latest/)
* [*Watson Developer Cloud Python SDK* ](https://github.com/watson-developer-cloud/python-sdk)
* [Kafka-Python](https://kafka-python.readthedocs.io/en/master/usage.html)
* [*使用 Spark* , *David Taieb* 的 Twitter Hashtag 的情感分析](https://medium.com/ibm-watson-data-lab/real-time-sentiment-analysis-of-twitter-hashtags-with-spark-7ee6ca5c1585)
* [*使用统计和机器学习模型的时间序列预测*, *Jeffrey Yau* ](https://www.youtube.com/watch?v=_vQ0W_qXMxk)
* [*时间序列预测理论*, *Analytics University* ](https://www.youtube.com/watch?v=Aw77aMLj9uM)
* [*时间序列分析-PyCon 2017* , *Aileen Nielsen* ](https://www.youtube.com/watch?v=zmfe2RaX-14)
* [Quandl Python 文档](https://docs.quandl.com/docs/python)
* [Statsmodels 文档](https://www.statsmodels.org/stable/index.html)
* [NetworkX](https://networkx.github.io/documentation/networkx-2.1/index.html) GeoJSON 规范: [http://geojson.org/](http://geojson.org/)
* [*Beautiful Soup 文档*](https://www.crummy.com/software/BeautifulSoup/bs4/doc)
# 附录 A.PixieApp 快速参考
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册