diff --git a/docs/00-Introduction.md b/docs/00-Introduction.md index 299fa0fb9297d65758f4da3d9f365f8fa6e40a60..e433345c302da56faf641348b9d7359abb5eca72 100644 --- a/docs/00-Introduction.md +++ b/docs/00-Introduction.md @@ -1,6 +1,12 @@ # 零、数据科学实战 +> 原文:[Data Science in Practice](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/00-Introduction.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + 欢迎来到阅读数据科学实战课程的实践材料。 本笔记本将指导你获取使用这些教程和作业所需的工具。 diff --git a/docs/01-JupyterNotebooks.md b/docs/01-JupyterNotebooks.md index f655d4747e2b33043620f1be5b875e603d65a8d7..1adee76dd1543ee562b5e824e7331c7c99f6a047 100644 --- a/docs/01-JupyterNotebooks.md +++ b/docs/01-JupyterNotebooks.md @@ -1,6 +1,12 @@ # 一、Jupyter 笔记本 +> 原文:[Jupyter Notebooks](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/01-JupyterNotebooks.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + 这是 Jupyter 笔记本的快速介绍。 diff --git a/docs/02-DataAnalysis.md b/docs/02-DataAnalysis.md index de5201df195f51c72e26506de23ba63d073282e0..6e18248e32366ec5f49ab06a24b632a3a5b72905 100644 --- a/docs/02-DataAnalysis.md +++ b/docs/02-DataAnalysis.md @@ -1,6 +1,12 @@ # 二、数据分析 +> 原文:[Data Analysis](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/02-DataAnalysis.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + 这本笔记本讲解了一些,我们可能想要使用数据科学方法做的事情的最小例子。 特别是,为了以下目的,它简要介绍了数据分析: diff --git a/docs/03-Python.md b/docs/03-Python.md index ebd02b7174e34d04b81a9e2986b344948c123c65..f2c17d2b4c112a4756942ce2044d16ff2e9f4b35 100644 --- a/docs/03-Python.md +++ b/docs/03-Python.md @@ -1,5 +1,11 @@ # 三、Python +> 原文:[Python](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/03-Python.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + ![title](img/python.png) Python 是[开源](https://en.wikipedia.org/wiki/Open-source_model),[高级](https://en.wikipedia.org/wiki/High-level_programming_language),[通用](https://en.wikipedia.org/wiki/General-purpose_programming_language),[解释性](https://en.wikipedia.org/wiki/Interpreted_language)的[编程语言](https://en.wikipedia.org/wiki/Programming_language),是数据科学应用程序中最受欢迎的应用之一。 diff --git a/docs/04-DataSciencePython.md b/docs/04-DataSciencePython.md index ecaa4117a691d8533062cb180dd5e1b72d199506..002a14f01e7bd4e49651d999f3aeae890d358cbc 100644 --- a/docs/04-DataSciencePython.md +++ b/docs/04-DataSciencePython.md @@ -1,6 +1,12 @@ # 四、Python 中的数据科学 +> 原文:[Data Science in Python](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/04-DataSciencePython.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + Python 有大量可用于数据科学的工具。 Python 中的数据科学核心围绕着一些核心模块,通常包括【scipy,numpy,pandas,matplotlib 和 scikit-learn】。 diff --git a/docs/05-DataGathering.md b/docs/05-DataGathering.md index e27923386ca4833090be967d33887d72fbc37abd..5f59572cc7c67042c56ae6b58b54237a7d43279e 100644 --- a/docs/05-DataGathering.md +++ b/docs/05-DataGathering.md @@ -1,6 +1,11 @@ # 五、数据收集 +> 原文:[Data Gathering](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/05-DataGathering.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) 数据收集只是将数据收集在一起的过程。 diff --git a/docs/06-DataWrangling.md b/docs/06-DataWrangling.md index b758d1e2e74a1123015dda824028e692ae165eab..6047797eea0d65f3e43ab570bc35224c41f95822 100644 --- a/docs/06-DataWrangling.md +++ b/docs/06-DataWrangling.md @@ -1,6 +1,12 @@ # 六、数据整理 +> 原文:[Data Wrangling](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/06-DataWrangling.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + “数据整理”通常是指将原始数据,转换为可用于你感兴趣的分析的可用形式,包括加载,聚合和格式化。 注意:在整个笔记本中,我们将使用 '!' 运行 shell 命令`cat`,来打印出示例数据文件的内容。 diff --git a/docs/07-DataCleaning.md b/docs/07-DataCleaning.md index 60be58289ecca778ceab31d054219546c231024d..efec28531efe759887ce15c3e13e48ed3329f3ca 100644 --- a/docs/07-DataCleaning.md +++ b/docs/07-DataCleaning.md @@ -1,6 +1,12 @@ # 七、数据清理 +> 原文:[Data Cleaning](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/07-DataCleaning.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + “数据清理”是查找并删除或修复“错误数据”的过程,其中“错误数据”通常指的是损坏和/或不准确的数据点。 ```python diff --git a/docs/08-DataPrivacy&Anonymization.md b/docs/08-DataPrivacy&Anonymization.md index d8de4b07d90a2639723de904d3675f919b2352e7..12c160414293128e87d60f66a7eb13be7c91dd38 100644 --- a/docs/08-DataPrivacy&Anonymization.md +++ b/docs/08-DataPrivacy&Anonymization.md @@ -1,6 +1,12 @@ # 八、数据隐私和匿名化 +> 原文:[Data Privacy & Anonymization](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/08-DataPrivacy%26Anonymization.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + 许多数据,可能是数据科学中通常使用的绝大多数数据,直接或间接地与人有关。 个人拥有某些隐私权,关于谁可以知道或分享有关特定身份个人的信息。 对于某些类别的敏感信息(例如,与健康相关的信息具有特殊保护)尤其如此,但也适用于所有其他数据。 diff --git a/docs/09-DataVisualization.md b/docs/09-DataVisualization.md index e35c14359cea06e9ae1756c1a40dc5d4ba567424..00103f28402df8033cca1b58882a1bed6c137ca6 100644 --- a/docs/09-DataVisualization.md +++ b/docs/09-DataVisualization.md @@ -1,6 +1,12 @@ # 九、使用 Python 进行数据可视化 +> 原文:[Data Visualization with Python](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/09-DataVisualization.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + 数据可视化可能意味着不同的东西。 在这里,我们将使用 Matplotlib 来处理基本的 2D 绘图,Matplotlib 是一个 Python 绘图库。 diff --git a/docs/10-Distributions.md b/docs/10-Distributions.md index 8f8ca986bb84f8d9c80a2c94e1a315edb8f563f4..b248e283a8884f767447ecf192b46a1b41909976 100644 --- a/docs/10-Distributions.md +++ b/docs/10-Distributions.md @@ -1,6 +1,12 @@ # 十、分布 +> 原文:[Distributions](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/10-Distributions.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + 概率分布反映了函数/数据源的可能结果的发生概率。 这是[维基百科](https://en.wikipedia.org/wiki/Probability_distribution)上的概率分布。如果你想要更全面地了解概率/分布,请查看此[文章](https://betterexplained.com/articles/a-brief-introduction-to-probability-statistics/)。 diff --git a/docs/11-TestingDistributions.md b/docs/11-TestingDistributions.md index dd8271be4d895d72b658601cc5d0acd6cc6d7b90..ed8279e2461fd4acc5abc6ef03e14cf8e6056e6b 100644 --- a/docs/11-TestingDistributions.md +++ b/docs/11-TestingDistributions.md @@ -1,6 +1,11 @@ # 十一、检验分布 +> 原文:[Testing Distributions](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/11-TestingDistributions.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) 有时,正式检验你观察到的某些数据是否遵循特定分布,可能是有用的(或必要的)。 diff --git a/docs/13-OrdinaryLeastSquares.md b/docs/13-OrdinaryLeastSquares.md index 6cc777e0cb815de79a7007ffe60523f6bf1a31b1..baa73a74a55c6286190d4328dd4e1c7a7b4406c5 100644 --- a/docs/13-OrdinaryLeastSquares.md +++ b/docs/13-OrdinaryLeastSquares.md @@ -1,6 +1,12 @@ # 十三、普通最小二乘 +> 原文:[Ordinary Least Squares](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/13-OrdinaryLeastSquares.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + 普通最小二乘法(OLS)意味着最小化模型做出的预测与观测数据之间的平方和的误差。 在[维基百科](https://en.wikipedia.org/wiki/Ordinary_least_squares)上查找有关 OLS 的更多信息,请查看这个很酷的[互动工具](http://setosa.io/ev/ordinary-least-squares-regression/)和/或查看在 Python 中执行 OLS 的[教程](https://www.datarobot.com/blog/ordinary-least-squares-in-python/)。 diff --git a/docs/14-LinearModels.md b/docs/14-LinearModels.md index 055dcad19e54f1a5fd7908b477a1b610387d1758..aed3d9a86077c72428bbeb0d21aab34c137c1779 100644 --- a/docs/14-LinearModels.md +++ b/docs/14-LinearModels.md @@ -1,6 +1,12 @@ # 十四、线性模型 +> 原文:[Linear Models](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/14-LinearModels.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + 线性(回归)建模是一种方法,将输出值预测为输入值的加权线性组合。 ### 线性模型 - 概述 diff --git a/docs/15-Clustering.md b/docs/15-Clustering.md index 6dd28e7904c726d59aec6123434d8040d09b3139..41184b771885e7e45de73f6e5ab2aff218c7d533 100644 --- a/docs/15-Clustering.md +++ b/docs/15-Clustering.md @@ -1,6 +1,11 @@ # 十五、聚类 +> 原文:[Clustering](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/15-Clustering.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) 聚类是尝试在数据中查找结构(簇)的过程。 diff --git a/docs/16-DimensionalityReduction.md b/docs/16-DimensionalityReduction.md index 9c7c9d638ec13daca01a8c201cd0ffcae049b927..96b7825172855d9718d7284dea9ae6af8c48976f 100644 --- a/docs/16-DimensionalityReduction.md +++ b/docs/16-DimensionalityReduction.md @@ -1,6 +1,11 @@ # 十六、降维 +> 原文:[Dimensionality Reduction](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/16-DimensionalityReduction.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) 降维是将数据集转换为较低维空间的过程。 diff --git a/docs/17-Classification.md b/docs/17-Classification.md index 9007db1c0d2c668aaddcab354368a02c429e0eeb..384326f0d2b933aedb116baf221bd7bb8b06dbcb 100644 --- a/docs/17-Classification.md +++ b/docs/17-Classification.md @@ -1,6 +1,12 @@ # 十七、分类 +> 原文:[Classification](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/17-Classification.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + 分类是对数据进行分类的过程 - 将数据点分配给预定义的组(或簇)。 来自维基百科的[分类](https://en.wikipedia.org/wiki/Statistical_classification)文章。 diff --git a/docs/18-NaturalLanguageProcessing.md b/docs/18-NaturalLanguageProcessing.md index c7f388dddc32abc3c86937384078506d22b11a03..e6f5c1279d591f4b85efa6132d7825f8620d71e4 100644 --- a/docs/18-NaturalLanguageProcessing.md +++ b/docs/18-NaturalLanguageProcessing.md @@ -1,6 +1,12 @@ # 十八、自然语言处理 +> 原文:[Natural Language Processing](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/18-NaturalLanguageProcessing.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + 自然语言处理(NLP)是使用计算机分析文本数据的方法。 这是[维基百科](https://en.wikipedia.org/wiki/Natural-language_processing)上的自然语言处理。 diff --git a/docs/A1-PythonPackages.md b/docs/A1-PythonPackages.md index 377cc5161a911e3979d148376c4f42d042bc5a97..1cb32b606ea76da518c116615ff664d110acade6 100644 --- a/docs/A1-PythonPackages.md +++ b/docs/A1-PythonPackages.md @@ -1,6 +1,11 @@ # 附录一、有用的 Python 数据科学包 +> 原文:[Useful Python Packages for Data Science](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/A1-PythonPackages.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) 以下是 Python 中可能对数据科学有用的包一般概述。 diff --git a/docs/A2-Git.md b/docs/A2-Git.md index 0239d2178e0aaf82ee894d97748c36bd9119173c..3b0ecdf806bf644cd5f705b53a02d5ebd467b78c 100644 --- a/docs/A2-Git.md +++ b/docs/A2-Git.md @@ -1,6 +1,12 @@ # 附录二、git/Github 版本控制工具 +> 原文:[Version Control with git/Github](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/A2-Git.ipynb) +> +> 译者:[飞龙](https://github.com/wizardforcel) +> +> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/) + 版本控制反映了一组与管理文件相关的实践,特别是管理不同版本的文件。 你可以在[维基百科](https://en.wikipedia.org/wiki/Version_control)或[ git 文档](https://git-scm.com/book/en/v2/)上阅读版本控制的更多信息。