2021-02-20 20:30:13

77f2b13e · wizardforcel · a4b33a72 · 77f2b13e · 77f2b13e · 77f2b13e
5 changed file
--- a/new/master-py-ds/01.md
+++ b/new/master-py-ds/01.md
@@ -998,7 +998,7 @@ MIDDLE/HIGH      53089   59.251116   65.905591

 在本章中，我们熟悉了 NumPy 和 pandas 软件包。 我们了解了熊猫中不同的数据类型以及如何利用它们。 我们学习了如何执行数据清除和操作，其中我们处理了缺失值并执行了字符串操作。 本章为我们提供了数据科学的基础，您可以通过单击以下链接来更深入地了解 NumPy 和熊猫：

-*   **NumPy** **文档**： [http://docs.scipy.org/doc/](http://docs.scipy.org/doc/)
-*   **大熊猫** **文档**： [http://pandas.pydata.org/](http://pandas.pydata.org/)
+*   [**NumPy** **文档**](http://docs.scipy.org/doc/)
+*   [**大熊猫** **文档**](http://pandas.pydata.org/)

 在下一章中，我们将学习推论统计的含义及其作用，以及如何理解推论统计中的不同概念。
\ No newline at end of file
--- a/new/py-ds-essentials/1.md
+++ b/new/py-ds-essentials/1.md
@@ -430,7 +430,7 @@ $> conda remove -n python36 --all

 **NumPy** 是 Travis Oliphant 的创作，是 Python 语言的真正分析主力。 它为用户提供了多维数组，以及为这些数组进行大量数学运算的大量函数。 数组是沿多个维度排列的数据块，它们实现数学向量和矩阵。 数组具有最佳的内存分配特征，不仅对存储数据有用，而且对快速矩阵运算（矢量化）也很有用，当您希望解决临时数据科学问题时，数组必不可少：

-*   **网站**： [http://www.numpy.org/](http://www.numpy.org/)
+*   [**网站**](http://www.numpy.org/)
 *   **打印时的版本**：1.12.1
 *   **建议的安装命令**：`pip install numpy`

@@ -446,7 +446,7 @@ import numpy as np

 SciPy 由 Travis Oliphant，Pearu Peterson 和 Eric Jones 共同发起的原始项目完善了 NumPy 的功能，该功能为线性代数，稀疏矩阵，信号和图像处理，优化，快速傅立叶变换等提供了更多科学算法：

-*   **网站**： [http://www.scipy.org/](http://www.scipy.org/)
+*   [**网站**](http://www.scipy.org/)
 *   **打印时的版本**：1.1.0
 *   **建议的安装命令**：``pip install scipy``

@@ -454,7 +454,7 @@ SciPy 由 Travis Oliphant，Pearu Peterson 和 Eric Jones 共同发起的原始

 大熊猫软件包处理 NumPy 和 SciPy 无法执行的所有操作。 借助其特定的数据结构，即 DataFrames 和 Series，pandas 允许您处理不同类型（NumPy 的数组无法执行的操作）和时间序列的复杂数据表。 由于 Wes McKinney 的创造，您将能够轻松，平稳地从各种来源加载数据。 然后，您可以切片，切块，处理丢失的元素，添加，重命名，聚合，重塑形状，最后随意可视化数据：

-*   **网站**： [http://pandas.pydata.org/](http://pandas.pydata.org/)
+*   [**网站**](http://pandas.pydata.org/)
 *   **打印时的版本**：0.23.1
 *   **建议的安装命令**：`pip install pandas`

@@ -477,7 +477,7 @@ import pandas as pd

 这是有关此软件包的所有信息：

-*   **网站**： [https://github.com/pandas-profiling/pandas-profiling](https://github.com/pandas-profiling/pandas-profiling)
+*   [**网站**](https://github.com/pandas-profiling/pandas-profiling)
 *   **打印时的版本**：1.4.1
 *   **建议的安装命令**：`pip install pandas-profiling`

@@ -485,7 +485,7 @@ import pandas as pd

 作为 **SciKits** （ **SciPy Toolkits** ）的一部分开始，Scikit-learn 是 Python 数据科学运算的核心。 它提供了数据预处理，有监督和无监督学习，模型选择，验证和错误度量方面可能需要的所有功能。 希望我们在本书中详细讨论这个软件包。 Scikit-learn 于 2007 年由 David Cournapeau 发起，是一个 Google Summer of Code 项目。 自 2013 年以来，它已由 **INRIA** （**国家信息和自动化研究所**，即法国计算机科学与自动化研究所）的研究人员接管：

-*   **网站**： [http://Scikit-learn.org/stable](http://scikit-learn.org/stable)
+*   [**网站**](http://scikit-learn.org/stable)
 *   **打印时的版本**：0.19.1
 *   **建议的安装命令**：`pip install Scikit-learn`

@@ -495,7 +495,7 @@ import pandas as pd

 科学方法要求以可重复的方式对不同的假设进行快速实验。 Jupyter 最初命名为 IPython，并且仅限于使用 Python 语言，它是由 Fernando Perez 创建的，旨在满足对具有图形化集成的交互式 Python 命令 shell（基于 shell，Web 浏览器和应用程序界面）的需求。 ，可自定义的命令，丰富的历史记录（以 JSON 格式）和计算并行性以提高性能。 Jupyter 是本书中我们最喜欢的选择。 它用于清楚有效地说明脚本和数据的操作及其结果：

-*   **网站**： [http://jupyter.org/](http://jupyter.org/)
+*   [**网站**](http://jupyter.org/)
 *   **打印时的版本**：4.4.0（ipykernel = 4.8.2）
 *   **建议的安装命令**：``pip install jupyter``

@@ -503,7 +503,7 @@ import pandas as pd

 **JupyterLab** 是 Jupyter 项目的下一个用户界面，该项目目前处于测试阶段。 它是为交互式和可重复计算而设计的环境，它将以更灵活和强大的用户界面提供所有常用的笔记本，终端，文本编辑器，文件浏览器，丰富的输出等。 JupyterLab 达到 1.0 版后，JupyterLab 最终将取代经典的 Jupyter 笔记本。 因此，我们打算现在介绍此软件包，以使您了解它及其功能：

-*   **网站**： [https://github.com/jupyterlab/jupyterlab](https://github.com/jupyterlab/jupyterlab)
+*   [**网站**](https://github.com/jupyterlab/jupyterlab)
 *   **打印时的版本**：0.32.0
 *   **建议的安装命令**：`pip install jupyterlab`

@@ -513,7 +513,7 @@ matplotlib 最初由 John Hunter 开发，是一个库，其中包含从数组

 您可以在 PyLab 模块中找到所有类似 MATLAB 的绘图框架：

-*   **网站**： [http://matplotlib.org/](http://matplotlib.org/)
+*   [**网站**](http://matplotlib.org/)
 *   **打印时的版本**：2.2.2
 *   **建议的安装命令**：`pip install matplotlib`

@@ -527,7 +527,7 @@ import matplotlib.pyplot as plt

 由于这个原因，使用 matplotlib 制作漂亮的图形确实非常耗时，Michael Waskom（ [http://www.cns.nyu.edu/~mwaskom/](http://www.cns.nyu.edu/~mwaskom/) ）开发了 Seaborn，这是一种高级可视化工具 基于 matplotlib 的软件包，并与 pandas 数据结构（例如 Series 和 DataFrames）集成在一起，能够产生信息丰富且美观的统计可视化。

-*   **网站**： [http://seaborn.pydata.org/](http://seaborn.pydata.org/)
+*   [**网站**](http://seaborn.pydata.org/)
 *   **打印时的版本**：0.9.0
 *   **建议的安装命令**：`pip install seaborn`

@@ -541,7 +541,7 @@ import seaborn as sns

 `statsmodels`以前是 SciKits 的一部分，被认为是 SciPy 统计功能的补充。 它具有广义线性模型，离散选择模型，时间序列分析，一系列描述性统计以及参数和非参数测试：

-*   **网站**： [http://statsmodels.sourceforge.net/](http://statsmodels.sourceforge.net/)
+*   [**网站**](http://statsmodels.sourceforge.net/)
 *   **打印时的版本**：0.9.0
 *   **建议的安装命令**：`pip install statsmodels`

@@ -549,7 +549,7 @@ import seaborn as sns

 **Beautiful Soup** 是 Leonard Richardson 的作品，是一种从 HTML 和 XML 文件中提取数据的出色工具，这些文件是从 Internet 检索的。 即使在*标签汤*（因此得名）的情况下，它的效果也非常好，这些汤是畸形，矛盾和不正确标签的集合。 选择解析器（Python 标准库中包含的 HTML 解析器可以正常工作）之后，借助 Beautiful Soup，您可以浏览页面中的对象并提取文本，表格和其他可能有用的信息：

-*   **网站**： [http://www.crummy.com/software/BeautifulSoup](http://www.crummy.com/software/BeautifulSoup)
+*   [**网站**](http://www.crummy.com/software/BeautifulSoup)
 *   **打印时的版本**：4.6.0
 *   **建议的安装命令**：`pip install beautifulsoup4`

@@ -559,7 +559,7 @@ import seaborn as sns

 **NetworkX** 由美国洛斯阿拉莫斯国家实验室开发，是专门用于创建，处理，分析和图形表示真实网络数据的程序包（它可以轻松地使用由一百万个节点组成的图形进行操作， 边缘）。 除了用于图形的专用数据结构和精细的可视化方法（2D 和 3D）之外，它还为用户提供了许多标准的图形度量和算法，例如最短路径，中心，组件，社区，聚类和 PageRank。 我们将在[第 6 章](6.html)和*社交网络分析*中主要使用此软件包：

-*   **网站**： [http://networkx.github.io/](http://networkx.github.io/)
+*   [**网站**](http://networkx.github.io/)
 *   **打印时的版本**：2.1
 *   **建议的安装命令**：`pip install networkx`

@@ -573,7 +573,7 @@ import networkx as nx

 **自然语言工具包**（ **NLTK** ）提供对语料库和词汇资源的访问，以及用于**自然语言处理**（ **NLP** ），从分词器到词性标记器，从树模型到命名实体识别。 最初，史蒂芬·伯德（Steven Bird）和爱德华·洛珀（Edward Loper）创建了该软件包，将其作为宾夕法尼亚大学课程的 NLP 教学基础设施。 现在，它是一个了不起的工具，可用于原型和构建 NLP 系统：

-*   **网站**： [http://www.nltk.org/](http://www.nltk.org/)
+*   [**网站**](http://www.nltk.org/)
 *   **打印时的版本**：3.3
 *   **建议的安装命令**：`pip install nltk`

@@ -581,7 +581,7 @@ import networkx as nx

 **Gensim** 由 RadimŘehůřek 编程，是一个开源软件包，适用于借助并行可分配的在线算法分析大型文本集。 在高级功能中，它实现**潜在语义分析**（ **LSA** ），通过**潜在 Dirichlet 分配**（ **LDA** ）进行主题建模。 HTG10] word2vec ，一种强大的算法，可将文本转换为矢量特征，可用于有监督和无监督的机器学习：

-*   **网站**： [http://radimrehurek.com/gensim/](http://radimrehurek.com/gensim/)
+*   [**网站**](http://radimrehurek.com/gensim/)
 *   **打印时的版本**：3.4.0
 *   **建议的安装命令**：`pip install gensim`

@@ -589,9 +589,9 @@ import networkx as nx

 **PyPy** 不是软件包； 它是 Python 3.5.3 的替代实现，它支持大多数常用的 Python 标准软件包（不幸的是，当前尚未完全支持 NumPy）。 优点是，它可以提高速度和内存处理能力。 因此，对于大数据量的重型操作非常有用，它应该成为大数据处理策略的一部分：

-*   **网站**： [http://pypy.org/](http://pypy.org/)
+*   [**网站**](http://pypy.org/)
 *   **打印时的版本**：6.0
-*   **下载页面**： [http://pypy.org/download.html](http://pypy.org/download.html)
+*   [**下载页面**](http://pypy.org/download.html)

 # XGBoost

@@ -599,7 +599,7 @@ import networkx as nx

 *   **网站：** [https://xgboost.readthedocs.io/en/latest/](https://xgboost.readthedocs.io/en/latest/)
 *   **打印时的版本：** 0.80
-*   **下载页面**： [https://github.com/dmlc/xgboost](https://github.com/dmlc/xgboost)
+*   [**下载页面**](https://github.com/dmlc/xgboost)

 可以在[这个页面](https://xgboost.readthedocs.io/en/latest/build.html#)上找到在系统上安装 XGBoost 的详细说明。

@@ -707,7 +707,7 @@ import lightgbm as lgbm
 *   **网站：** [https://catboost.yandex](https://catboost.yandex)
 *   **打印时的版本：** 0.8.1.1
 *   **建议的安装命令**：`pip install catboost`
-*   **下载页面**： [https://github.com/catboost/catboost](https://github.com/catboost/catboost)
+*   [**下载页面**](https://github.com/catboost/catboost)

 CatBoost 需要`msgpack`，可以使用`pip install msgpack`命令轻松安装。


--- a/new/thoughtful-ds/02.md
+++ b/new/thoughtful-ds/02.md
@@ -452,10 +452,10 @@ display(wrangled_df)

 数据可视化是另一个非常重要的数据科学任务，对于探索和形成假设来说是必不可少的。 幸运的是，Python 生态系统具有许多强大的库，专门用于数据可视化，例如以下热门示例：

-*   Matplotlib： [http://matplotlib.org](http://matplotlib.org)
-*   Seaborn： [https://seaborn.pydata.org](https://seaborn.pydata.org)
-*   散景： [http://bokeh.pydata.org](http://bokeh.pydata.org)
-*   布鲁内尔： [https://brunelvis.org](https://brunelvis.org)
+*   [Matplotlib](http://matplotlib.org)
+*   [Seaborn](https://seaborn.pydata.org)
+*   [散景](http://bokeh.pydata.org)
+*   [布鲁内尔](https://brunelvis.org)

 但是，类似于数据加载和清理，在 Notebook 中使用这些库可能既困难又耗时。 这些库中的每一个都有各自的编程模型，并且 API 并不总是易于学习和使用的，特别是如果您不是经验丰富的开发人员。 另一个问题是这些库没有与常用数据处理框架（例如 pandas（可能是 Matplotlib 除外）或 Apache Spark）的高层接口，因此，在绘制数据之前需要进行大量数据准备。


--- a/new/thoughtful-ds/07.md
+++ b/new/thoughtful-ds/07.md
@@ -15,11 +15,11 @@

 一些 Spark 即服务的云提供商包括：

-*   Microsoft Azure： [https://azure.microsoft.com/zh-cn/services/hdinsight/apache-spark](https://azure.microsoft.com/en-us/services/hdinsight/apache-spark)
-*   亚马逊网络服务： [https://aws.amazon.com/emr/details/spark](https://aws.amazon.com/emr/details/spark)
-*   Google 云端： [https://cloud.google.com/dataproc](https://cloud.google.com/dataproc)
-*   Databricks： [https://databricks.com](https://databricks.com)
-*   IBM Cloud： [https://www.ibm.com/cloud/analytics-engine](https://www.ibm.com/cloud/analytics-engine)
+*   [Microsoft Azure](https://azure.microsoft.com/en-us/services/hdinsight/apache-spark)
+*   [亚马逊网络服务](https://aws.amazon.com/emr/details/spark)
+*   [Google 云端](https://cloud.google.com/dataproc)
+*   [Databricks](https://databricks.com)
+*   [IBM Cloud](https://www.ibm.com/cloud/analytics-engine)

 ### 注意


--- a/new/thoughtful-ds/10.md
+++ b/new/thoughtful-ds/10.md
@@ -36,32 +36,32 @@ Drew 的数据科学 Conway Venn 图现在包括开发人员

 # 参考

-*   DeepQA（IBM）： [https://researcher.watson.ibm.com/researcher/view_group_subpage.php?id=2159](https://researcher.watson.ibm.com/researcher/view_group_subpage.php?id=2159)
-*   *Watson 中的深度解析*， *McCord* ， *Murdock* ， *Boguraev* ： [http://brenocon.com/watson_special_issue/03% 20Deep％20parsing.pdf](http://brenocon.com/watson_special_issue/03%20Deep%20parsing.pdf)
-*   *Jupyter for Data Science* ， *Dan Toomey* ， *Packt Publishing* ： [https://www.packtpub.com/big-data-and-business- 情报/ jupyter-data-science](https://www.packtpub.com/big-data-and-business-intelligence/jupyter-data-science)
-*   PixieDust 文档： [https://pixiedust.github.io/pixiedust/](https://pixiedust.github.io/pixiedust/)
-*   *您一直想要的 Jupyter 笔记本的 Visual Python 调试器*， *David Taieb* ： [https://medium.com/ibm-watson-data-lab/the-visual -python-debugger-for-jupyter-notebooks-youve 总是想要的-761713babc62](https://medium.com/ibm-watson-data-lab/the-visual-python-debugger-for-jupyter-notebooks-youve-always-wanted-761713babc62)
-*   *在网络上共享 Jupyter 笔记本图表*， *David Taieb* ： [https://medium.com/ibm-watson-data-lab/share-your-jupyter-notebook 网上图表-43e190df4adb](https://medium.com/ibm-watson-data-lab/share-your-jupyter-notebook-charts-on-the-web-43e190df4adb)
-*   *使用 PixieDust 1.1 版*， *David Taieb* ： [https://medium.com/ibm-watson-data-lab/deploy-your-analytics 作为 Web 应用程序将分析部署为 Web 应用程序 网路应用程式使用 pixiedusts-1-1 版本-d08067584a14](https://medium.com/ibm-watson-data-lab/deploy-your-analytics-as-web-apps-using-pixiedusts-1-1-release-d08067584a14)
-*   Kubernetes： [https://kubernetes.io/docs/home/](https://kubernetes.io/docs/home/)
-*   字云： [https://amueller.github.io/word_cloud/index.html](https://amueller.github.io/word_cloud/index.html)
-*   *神经网络与深度学习*， *Michael Nielsen* ： [http://neuralnetworksanddeeplearning.com/index.html](http://neuralnetworksanddeeplearning.com/index.html)
-*   *深度学习*，*伊恩·古德费洛*， *Yoshua Bengio* 和 *Aaron Courville* ，*麻省理工学院出版社*： [http://www.deeplearningbook.org/](http://www.deeplearningbook.org/)
-*   TensorFlow 文档站点： [https://www.tensorflow.org/](https://www.tensorflow.org/)
-*   *TensorFlow For Poets* ： [https://codelabs.developers.google.com/codelabs/tensorflow-for-poets](https://codelabs.developers.google.com/codelabs/tensorflow-for-poets)
-*   *Tensorflow 和深度学习-没有博士学位，MartinGörner*： [https://www.youtube.com/watch?v=vq2nnJ4g6N0](https://www.youtube.com/watch?v=vq2nnJ4g6N0)
-*   Apache Spark： [https://spark.apache.org/](https://spark.apache.org/)
-*   Tweepy 库文档： [http://tweepy.readthedocs.io/en/latest/](http://tweepy.readthedocs.io/en/latest/)
-*   *Watson Developer Cloud Python SDK* ： [https://github.com/watson-developer-cloud/python-sdk](https://github.com/watson-developer-cloud/python-sdk)
-*   Kafka-Python： [https://kafka-python.readthedocs.io/en/master/usage.html](https://kafka-python.readthedocs.io/en/master/usage.html)
-*   *使用 Spark* ， *David Taieb* 的 Twitter Hashtag 的情感分析： [https://medium.com/ibm-watson-data-lab/real-time-sentiment-analysis- 带有 spark-7ee6ca5c1585 的 Twitter 哈希标签](https://medium.com/ibm-watson-data-lab/real-time-sentiment-analysis-of-twitter-hashtags-with-spark-7ee6ca5c1585)
-*   *使用统计和机器学习模型的时间序列预测*， *Jeffrey Yau* ： [https://www.youtube.com/watch?v=_vQ0W_qXMxk](https://www.youtube.com/watch?v=_vQ0W_qXMxk)
-*   *时间序列预测理论*， *Analytics University* ： [https://www.youtube.com/watch?v=Aw77aMLj9uM](https://www.youtube.com/watch?v=Aw77aMLj9uM)
-*   *时间序列分析-PyCon 2017* ， *Aileen Nielsen* ： [https://www.youtube.com/watch?v=zmfe2RaX-14](https://www.youtube.com/watch?v=zmfe2RaX-14)
-*   Quandl Python 文档： [https://docs.quandl.com/docs/python](https://docs.quandl.com/docs/python)
-*   Statsmodels 文档： [https://www.statsmodels.org/stable/index.html](https://www.statsmodels.org/stable/index.html)
-*   NetworkX： [https://networkx.github.io/documentation/networkx-2.1/index.html](https://networkx.github.io/documentation/networkx-2.1/index.html) GeoJSON 规范： [http://geojson.org/](http://geojson.org/)
-*   *Beautiful Soup 文档*： [https://www.crummy.com/software/BeautifulSoup/bs4/doc](https://www.crummy.com/software/BeautifulSoup/bs4/doc)
+*   [DeepQA（IBM）](https://researcher.watson.ibm.com/researcher/view_group_subpage.php?id=2159)
+*   [*Watson 中的深度解析*， *McCord* ， *Murdock* ， *Boguraev* ](http://brenocon.com/watson_special_issue/03%20Deep%20parsing.pdf)
+*   [*Jupyter for Data Science* ， *Dan Toomey* ， *Packt Publishing* ](https://www.packtpub.com/big-data-and-business-intelligence/jupyter-data-science)
+*   [PixieDust 文档](https://pixiedust.github.io/pixiedust/)
+*   [*您一直想要的 Jupyter 笔记本的 Visual Python 调试器*， *David Taieb* ](https://medium.com/ibm-watson-data-lab/the-visual-python-debugger-for-jupyter-notebooks-youve-always-wanted-761713babc62)
+*   [*在网络上共享 Jupyter 笔记本图表*， *David Taieb* ](https://medium.com/ibm-watson-data-lab/share-your-jupyter-notebook-charts-on-the-web-43e190df4adb)
+*   [*使用 PixieDust 1.1 版*， *David Taieb* ](https://medium.com/ibm-watson-data-lab/deploy-your-analytics-as-web-apps-using-pixiedusts-1-1-release-d08067584a14)
+*   [Kubernetes](https://kubernetes.io/docs/home/)
+*   [字云](https://amueller.github.io/word_cloud/index.html)
+*   [*神经网络与深度学习*， *Michael Nielsen* ](http://neuralnetworksanddeeplearning.com/index.html)
+*   [*深度学习*，*伊恩·古德费洛*， *Yoshua Bengio* 和 *Aaron Courville* ，*麻省理工学院出版社*](http://www.deeplearningbook.org/)
+*   [TensorFlow 文档站点](https://www.tensorflow.org/)
+*   [*TensorFlow For Poets* ](https://codelabs.developers.google.com/codelabs/tensorflow-for-poets)
+*   [*Tensorflow 和深度学习-没有博士学位，MartinGörner*](https://www.youtube.com/watch?v=vq2nnJ4g6N0)
+*   [Apache Spark](https://spark.apache.org/)
+*   [Tweepy 库文档](http://tweepy.readthedocs.io/en/latest/)
+*   [*Watson Developer Cloud Python SDK* ](https://github.com/watson-developer-cloud/python-sdk)
+*   [Kafka-Python](https://kafka-python.readthedocs.io/en/master/usage.html)
+*   [*使用 Spark* ， *David Taieb* 的 Twitter Hashtag 的情感分析](https://medium.com/ibm-watson-data-lab/real-time-sentiment-analysis-of-twitter-hashtags-with-spark-7ee6ca5c1585)
+*   [*使用统计和机器学习模型的时间序列预测*， *Jeffrey Yau* ](https://www.youtube.com/watch?v=_vQ0W_qXMxk)
+*   [*时间序列预测理论*， *Analytics University* ](https://www.youtube.com/watch?v=Aw77aMLj9uM)
+*   [*时间序列分析-PyCon 2017* ， *Aileen Nielsen* ](https://www.youtube.com/watch?v=zmfe2RaX-14)
+*   [Quandl Python 文档](https://docs.quandl.com/docs/python)
+*   [Statsmodels 文档](https://www.statsmodels.org/stable/index.html)
+*   [NetworkX](https://networkx.github.io/documentation/networkx-2.1/index.html) GeoJSON 规范： [http://geojson.org/](http://geojson.org/)
+*   [*Beautiful Soup 文档*](https://www.crummy.com/software/BeautifulSoup/bs4/doc)

 # 附录 A.PixieApp 快速参考