2019-04-08 22:06:59

9b06ce70 · wizardforcel · 86ff987f · 9b06ce70 · 9b06ce70 · 9b06ce70
20 changed file
--- a/docs/00-Introduction.md
+++ b/docs/00-Introduction.md

 # 零、数据科学实战

+> 原文：[Data Science in Practice](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/00-Introduction.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 欢迎来到阅读数据科学实战课程的实践材料。

 本笔记本将指导你获取使用这些教程和作业所需的工具。

--- a/docs/01-JupyterNotebooks.md
+++ b/docs/01-JupyterNotebooks.md

 # 一、Jupyter 笔记本

+> 原文：[Jupyter Notebooks](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/01-JupyterNotebooks.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 这是 Jupyter 笔记本的快速介绍。



--- a/docs/02-DataAnalysis.md
+++ b/docs/02-DataAnalysis.md

 # 二、数据分析

+> 原文：[Data Analysis](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/02-DataAnalysis.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 这本笔记本讲解了一些，我们可能想要使用数据科学方法做的事情的最小例子。

 特别是，为了以下目的，它简要介绍了数据分析：

--- a/docs/03-Python.md
+++ b/docs/03-Python.md
 # 三、Python

+> 原文：[Python](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/03-Python.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 ![title](img/python.png)

 Python 是[开源](https://en.wikipedia.org/wiki/Open-source_model)，[高级](https://en.wikipedia.org/wiki/High-level_programming_language)，[通用](https://en.wikipedia.org/wiki/General-purpose_programming_language)，[解释性](https://en.wikipedia.org/wiki/Interpreted_language)的[编程语言](https://en.wikipedia.org/wiki/Programming_language)，是数据科学应用程序中最受欢迎的应用之一。

--- a/docs/04-DataSciencePython.md
+++ b/docs/04-DataSciencePython.md

 # 四、Python 中的数据科学

+> 原文：[Data Science in Python](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/04-DataSciencePython.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 Python 有大量可用于数据科学的工具。

 Python 中的数据科学核心围绕着一些核心模块，通常包括【scipy，numpy，pandas，matplotlib 和 scikit-learn】。

--- a/docs/05-DataGathering.md
+++ b/docs/05-DataGathering.md

 # 五、数据收集

+> 原文：[Data Gathering](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/05-DataGathering.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)

 数据收集只是将数据收集在一起的过程。


--- a/docs/06-DataWrangling.md
+++ b/docs/06-DataWrangling.md

 # 六、数据整理

+> 原文：[Data Wrangling](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/06-DataWrangling.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 “数据整理”通常是指将原始数据，转换为可用于你感兴趣的分析的可用形式，包括加载，聚合和格式化。

 注意：在整个笔记本中，我们将使用 '!' 运行 shell 命令`cat`，来打印出示例数据文件的内容。

--- a/docs/07-DataCleaning.md
+++ b/docs/07-DataCleaning.md

 # 七、数据清理

+> 原文：[Data Cleaning](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/07-DataCleaning.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 “数据清理”是查找并删除或修复“错误数据”的过程，其中“错误数据”通常指的是损坏和/或不准确的数据点。

 ```python

--- a/docs/08-DataPrivacy&Anonymization.md
+++ b/docs/08-DataPrivacy&Anonymization.md

 # 八、数据隐私和匿名化

+> 原文：[Data Privacy & Anonymization](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/08-DataPrivacy%26Anonymization.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 许多数据，可能是数据科学中通常使用的绝大多数数据，直接或间接地与人有关。

 个人拥有某些隐私权，关于谁可以知道或分享有关特定身份个人的信息。 对于某些类别的敏感信息（例如，与健康相关的信息具有特殊保护）尤其如此，但也适用于所有其他数据。

--- a/docs/09-DataVisualization.md
+++ b/docs/09-DataVisualization.md

 # 九、使用 Python 进行数据可视化

+> 原文：[Data Visualization with Python](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/09-DataVisualization.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 数据可视化可能意味着不同的东西。

 在这里，我们将使用 Matplotlib 来处理基本的 2D 绘图，Matplotlib 是一个 Python 绘图库。

--- a/docs/10-Distributions.md
+++ b/docs/10-Distributions.md

 # 十、分布

+> 原文：[Distributions](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/10-Distributions.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 概率分布反映了函数/数据源的可能结果的发生概率。

 这是[维基百科](https://en.wikipedia.org/wiki/Probability_distribution)上的概率分布。如果你想要更全面地了解概率/分布，请查看此[文章](https://betterexplained.com/articles/a-brief-introduction-to-probability-statistics/)。

--- a/docs/11-TestingDistributions.md
+++ b/docs/11-TestingDistributions.md

 # 十一、检验分布

+> 原文：[Testing Distributions](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/11-TestingDistributions.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)

 有时，正式检验你观察到的某些数据是否遵循特定分布，可能是有用的（或必要的）。


--- a/docs/13-OrdinaryLeastSquares.md
+++ b/docs/13-OrdinaryLeastSquares.md

 # 十三、普通最小二乘

+> 原文：[Ordinary Least Squares](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/13-OrdinaryLeastSquares.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 普通最小二乘法（OLS）意味着最小化模型做出的预测与观测数据之间的平方和的误差。

 在[维基百科](https://en.wikipedia.org/wiki/Ordinary_least_squares)上查找有关 OLS 的更多信息，请查看这个很酷的[互动工具](http://setosa.io/ev/ordinary-least-squares-regression/)和/或查看在 Python 中执行 OLS 的[教程](https://www.datarobot.com/blog/ordinary-least-squares-in-python/)。

--- a/docs/14-LinearModels.md
+++ b/docs/14-LinearModels.md

 # 十四、线性模型

+> 原文：[Linear Models](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/14-LinearModels.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 线性（回归）建模是一种方法，将输出值预测为输入值的加权线性组合。

 ### 线性模型 - 概述

--- a/docs/15-Clustering.md
+++ b/docs/15-Clustering.md

 # 十五、聚类

+> 原文：[Clustering](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/15-Clustering.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)

 聚类是尝试在数据中查找结构（簇）的过程。


--- a/docs/16-DimensionalityReduction.md
+++ b/docs/16-DimensionalityReduction.md

 # 十六、降维

+> 原文：[Dimensionality Reduction](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/16-DimensionalityReduction.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)

 降维是将数据集转换为较低维空间的过程。


--- a/docs/17-Classification.md
+++ b/docs/17-Classification.md

 # 十七、分类

+> 原文：[Classification](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/17-Classification.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 分类是对数据进行分类的过程 - 将数据点分配给预定义的组（或簇）。

 来自维基百科的[分类](https://en.wikipedia.org/wiki/Statistical_classification)文章。

--- a/docs/18-NaturalLanguageProcessing.md
+++ b/docs/18-NaturalLanguageProcessing.md

 # 十八、自然语言处理

+> 原文：[Natural Language Processing](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/18-NaturalLanguageProcessing.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 自然语言处理（NLP）是使用计算机分析文本数据的方法。

 这是[维基百科](https://en.wikipedia.org/wiki/Natural-language_processing)上的自然语言处理。

--- a/docs/A1-PythonPackages.md
+++ b/docs/A1-PythonPackages.md

 # 附录一、有用的 Python 数据科学包

+> 原文：[Useful Python Packages for Data Science](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/A1-PythonPackages.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)

 以下是 Python 中可能对数据科学有用的包一般概述。


--- a/docs/A2-Git.md
+++ b/docs/A2-Git.md

 # 附录二、git/Github 版本控制工具

+> 原文：[Version Control with git/Github](https://nbviewer.jupyter.org/github/COGS108/Tutorials/blob/master/A2-Git.ipynb)
+> 
+> 译者：[飞龙](https://github.com/wizardforcel)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+
 版本控制反映了一组与管理文件相关的实践，特别是管理不同版本的文件。

 你可以在[维基百科](https://en.wikipedia.org/wiki/Version_control)或[ git 文档](https://git-scm.com/book/en/v2/)上阅读版本控制的更多信息。