2021-03-10 20:12:15

470c983b · wizardforcel · e4432033 · 470c983b · 470c983b · 470c983b
13 changed file
--- a/new/begin-ds-py-jupyter/3.md
+++ b/new/begin-ds-py-jupyter/3.md
@@ -33,21 +33,12 @@ HTTP 方法有很多类型，例如 GET，HEAD，POST 和 PUT。 前两个用于

 下表中总结了这些 HTTP 方法：

-<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup> 
-| 
-
-HTTP 方法
-
- | 
-
-描述
-
- |
+| HTTP 方法 | 描述 |
 | --- | --- |
-| 得到 | 从指定的 URL 检索信息 |
-| 头 | 从指定 URL 的 HTTP 标头中检索元信息 |
-| 邮政 | 发送附加信息以附加到指定 URL 的资源 |
-| 放 | 发送附加信息以替换指定 URL 上的资源 |
+| GET | 从指定的 URL 检索信息 |
+| HEAD | 从指定 URL 的 HTTP 标头中检索元信息 |
+| POST | 发送附加信息以附加到指定 URL 的资源 |
+| PUT | 发送附加信息以替换指定 URL 上的资源 |

 每次我们在浏览器中输入网页地址并按**输入**时，都会发送 GET 请求。 对于 Web 抓取，通常这是我们感兴趣的唯一 HTTP 方法，也是在本课程中将使用的唯一方法。


--- a/new/handson-ds-py-ml/09.md
+++ b/new/handson-ds-py-ml/09.md
@@ -242,20 +242,11 @@ Spark 是一项非常热门的技术，并且相对来说还很年轻，因此
 但是，Python 容易得多，并且您不需要编译任何东西。 管理依赖关系也容易得多。 您可以真正地将时间集中在算法和您正在做的事情上，而不是真正地构建，运行，编译以及所有这些废话。 另外，显然，到目前为止，这本书一直专注于 Python，在这些讲座中，继续使用我们所学的知识并坚持使用 Python 是有意义的。 以下是这两种语言的优缺点的简要摘要：

 | **Python** | **Scala** |
-| 
-
-*   无需编译，管理依赖项等。
-*   较少的编码开销
-*   您已经知道 Python
-*   让我们专注于概念而非新语言
-
- | 
-
-*   Scala 可能是 Spark 更受欢迎的选择
-*   Spark 是在 Scala 中构建的，因此 Scala 中的编码是 Spark
-*   的“本机”。 Scala 优先
-
- |
+| --- | --- |
+| 无需编译，管理依赖项等。 | Scala 可能是 Spark 更受欢迎的选择 |
+| 较少的编码开销 | Spark 是在 Scala 中构建的，因此 Scala 中的编码是 Spark “原生”的。 |
+| 您已经知道 Python | |
+| 让我们专注于概念而非新语言 | |

 但是，我要说的是，如果您要在现实世界中进行一些 Spark 编程，那么人们很有可能会使用 Scala。 不过，不必太担心它，因为在 Spark 中，Python 和 Scala 代码最终看起来非常相似，因为它们都围绕相同的 RDD 概念。 语法略有不同，但没有太大不同。 如果您能弄清楚如何使用 Python 执行 Spark，那么学习在 Scala 中使用它的步伐并不是很大。 这是两种语言的相同代码的快速示例：


--- a/new/master-py-ds/01.md
+++ b/new/master-py-ds/01.md
@@ -352,16 +352,7 @@ Minor_axis axis: 0 to 2

 我们将使用具有以下结构的文件：

-<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup> 
-| 
-
-柱子
-
- | 
-
-描述
-
- |
+| 标题 | 描述 |
 | --- | --- |
 | `LOCATION CODE` | 唯一的位置代码 |
 | `COUNTY` | 学校所属的县 |

--- a/new/master-py-ds/02.md
+++ b/new/master-py-ds/02.md
@@ -615,16 +615,7 @@ F 统计量由以下公式给出：

 卡方检验可用于检验观察到的数据是否与预期数据有显着差异。 让我们以骰子为例。 掷骰子 36 次，每个面朝上的概率为 1/6。 因此，预期分布如下：

-<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup> 
-| 
-
-预期频率
-
- | 
-
-结果
-
- |
+| 预期频率 | 结果 |
 | --- | --- |
 | 6 | 1 |
 | 6 | 2 |
@@ -640,16 +631,7 @@ F 统计量由以下公式给出：

 观察到的分布如下：

-<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup> 
-| 
-
-观测频率
-
- | 
-
-结果
-
- |
+| 观测频率 | 结果 |
 | --- | --- |
 | 7 | 1 |
 | 5 | 2 |
@@ -681,35 +663,9 @@ F 统计量由以下公式给出：

 让我们以下面的示例为例，根据阅读者的性别来看一本书是否有偏好：

-<colgroup><col style="text-align: left"> <col style="text-align: left"> <col style="text-align: left"> <col style="text-align: left"> <col style="text-align: left"></colgroup> 
-| 
-
-味道
-
- |
-| --- |
-| 
-
-全部的
-
- | 
-
-传
-
- | 
-
-悬念
-
- | 
-
-浪漫
-
- | 
-
-性别
-
- |
+| 风格 | | | | |
 | --- | --- | --- | --- | --- |
+| 全部 | 自传 | 悬疑 | 浪漫 | 性别 |
 | 280 | 60 | 120 | 100 | Men |
 | 640 | 90 | 200 | 350 | Women |
 | 920 | 150 | 320 | 450 |   |

--- a/new/master-py-ds/03.md
+++ b/new/master-py-ds/03.md
@@ -85,19 +85,10 @@

 以下是字段描述：

-<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup> 
-| 
-
-场地
-
- | 
-
-说明
-
- |
+| 字段 | 说明 |
 | --- | --- |
-| `survival` | 生存（`0` =否，`1` =是） |
-| `pclass` | 旅客舱位（`1` = 1，`2` = 2，`3` = 3） |
+| `survival` | 生存（`0`：否，`1`：是） |
+| `pclass` | 旅客舱位（`1`：1，`2`：2，`3`：3） |
 | `name` | 旅客姓名 |
 | `sex` | 旅客性别 |
 | `age` | 乘客年龄 |
@@ -105,8 +96,8 @@
 | `parch` | 父母/子女人数 |
 | `ticket` | 票号 |
 | `fare` | 旅客票价 |
-| `cabin` | 舱 |
-| `embarked` | 登船港口（`C` =瑟堡，`Q` =皇后镇，`S` =南安普敦） |
+| `cabin` | 舱号 |
+| `embarked` | 登船港口（`C`：瑟堡，`Q`：皇后镇，`S`：南安普敦） |

 由于数据非常易于理解，因此我们将生存分析作为可用于数据分析的主要主题。 我们将对这些主题附加问题。


--- a/new/master-py-ds/05.md
+++ b/new/master-py-ds/05.md
@@ -79,24 +79,7 @@

 让我们举个例子。 以下数据根据天气，湿度和风力的总体情况表示您是否应该打网球：

-<colgroup><col style="text-align: left"> <col style="text-align: left"> <col style="text-align: left"> <col style="text-align: left"></colgroup> 
-| 
-
-玩
-
- | 
-
-风
-
- | 
-
-湿度
-
- | 
-
-外表
-
- |
+| 玩 | 风力 | 湿度 | 天气 |
 | --- | --- | --- | --- |
 | `No` | `Low` | `High` | `Sunny` |
 | `No` | `High` | `Normal` | `Rain` |
@@ -132,16 +115,7 @@

 让我们尝试通过一个例子来理解这一点。 下表显示了班级中学生的身高和体重清单：

-<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup> 
-| 
-
-身高（英寸）
-
- | 
-
-重量（磅）
-
- |
+| 身高（英寸） | 重量（磅） |
 | --- | --- |
 | 50 | 125 |
 | 58 | 135 |

--- a/new/master-py-ds/07.md
+++ b/new/master-py-ds/07.md
@@ -284,22 +284,13 @@ Area under the ROC curve : 0.879934

 精度由 ROC 曲线下的面积衡量。 面积 1 代表完美测试； `0.5`区域表示该模型与随机猜测一样好。 对诊断测试的准确性进行分类的大致指南是传统的学术评分系统，如下所示：

-<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup> 
-| 
-
-范围
-
- | 
-
-类别
-
- |
+| 范围 | 类别 |
 | --- | --- |
-| 0.90-1 | 这是指优秀（A） |
-| 0.80-0.90 | 这指的是好（B） |
-| 0.70-0.80 | 这是指公平（C） |
-| 0.60-0.70 | 这是指差（D） |
-| 0.50-0.60 | 这是指失败（F） |
+| 0.90-1 | 优秀（A） |
+| 0.80-0.90 | 良好（B） |
+| 0.70-0.80 | 一般（C） |
+| 0.60-0.70 | 差（D） |
+| 0.50-0.60 | 失败（F） |

 上图中的虚线的 AUC 为`0.50`，不好。 我们的模型为我们提供了`0.88`的 AUC，这确实很好，并且是图中的蓝线。


--- a/new/master-py-ds/09.md
+++ b/new/master-py-ds/09.md
@@ -14,16 +14,7 @@

 下表是由加州大学尔湾分校创建的收入普查数据集：

-<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup> 
-| 
-
-列
-
- | 
-
-描述
-
- |
+| 列 | 描述 |
 | --- | --- |
 | `age` | 这是指一个人的年龄 |
 | `work class` | 这是指一个人从事的工作类型 |

--- a/new/py-ds-essentials/4.md
+++ b/new/py-ds-essentials/4.md
@@ -326,6 +326,7 @@ LIBSVM 或 LIBLINEAR 都不提供能够处理大型数据集的实现。 `SGDCla
 Scikit-learn 提供的 SVM 分类的实现如下所示：

 | **类** | **目的** | **超参数** |
+| --- | --- | --- |
 | `sklearn.svm.SVC` | 用于二进制和多类线性和核分类的 LIBSVM 实现 | `C`，核，度和伽马 |
 | `sklearn.svm.NuSVC` | 与`.SVC`版本相同 | `nu`，内核，度和`gamma` |
 | `sklearn.svm.OneClassSVM` | 无监督检测异常值 | `nu`，内核，度和`gamma` |
@@ -403,6 +404,7 @@ In: from sklearn.cross_validation import cross_val_score, StratifiedKFold
 至于回归，下面显示了 Scikit-learn 提出的 SVM 算法：

 | **类** | **目的** | **超参数** |
+| --- | --- | --- |
 | `sklearn.svm.SVR` | LIBSVM 实现回归 | `C`，内核，度，伽玛和`epsilon` |
 | `sklearn.svm.NuSVR` | 与`.SVR`相同 | `nu`，`C`，核，度和伽玛 |

@@ -529,7 +531,8 @@ In: import numpy as np
 现在让我们在表中检查粘贴，装袋，随机子空间和随机补丁的不同特征，这些特征是使用 Scikit-learn 中的`BaggingClassifier`和`BaggingRegressor`实现的：

 | **组装** | **目的** | **超参数** |
-| 贴上 | 使用子样本构建了许多模型（在不替换小于原始数据集的样本的情况下进行抽样） | `bootstrap=False``max_samples <1.0``max_features=1.0` |
+| --- | --- | --- |
+| 粘贴 | 使用子样本构建了许多模型（在不替换小于原始数据集的样本的情况下进行抽样） | `bootstrap=False``max_samples <1.0``max_features=1.0` |
 | 装袋 | 使用自举案例的随机选择构建了许多模型（通过替换原始样本的相同大小进行采样） | `bootstrap=True``max_samples = 1.0``max_features=1.0` |
 | 随机子空间 | 这与装袋相同，但是在选择每个模型时也会对特征进行采样 | `bootstrap=True``max_samples = 1.0``max_features<1.0` |
 | 随机补丁 | 这与装袋相同，但是在选择每个模型时也会对要素进行采样 | `bootstrap=False``max_samples <1.0``max_features<1.0` |

--- a/new/py-ds-essentials/6.md
+++ b/new/py-ds-essentials/6.md
@@ -12,7 +12,8 @@

 基本上，图是一种能够表示对象集合中的关系的数据结构。 在这种范式下，对象是图的节点，关系是图的链接（或边）。 如果链接具有方向（在概念上，它们就像城市的单向街道），则对图形进行定向。 否则，该图是无向的。 下表提供了众所周知的图形的示例：

-| **图表示例** | **类型** | **节点** | **边** |
+| **图示例** | **类型** | **节点** | **边** |
+| --- | --- | --- | --- |
 | 全球资讯网 | 导演 | 网页 | 链接 |
 | Facebook | 无向 | 人们 | 友谊 |
 | 推特 | 导演 | 人们 | 追随者 |

--- a/new/thoughtful-ds/00.md
+++ b/new/thoughtful-ds/00.md
 # 前言

-|   | *“开发人员是当今商业中最重要，最有价值的选区，而与行业无关。”* |   |
-|   | - *The New Kingmakers* 的作者 Stephen O'Grady |
+“开发人员是当今商业中最重要，最有价值的选区，而与行业无关。”
+
+————《The New Kingmakers》作者 Stephen O'Grady

 首先，让我感谢您，并祝贺您，读者，决定决定花您宝贵的时间阅读本书。 在接下来的各章中，我将带您从开发人员的角度探索或什至重新发现数据科学的旅程，并将发展本书的主题，即数据科学是一项团队运动，并且，如果获得成功，开发人员将不得不在不久的将来扮演更大的角色，并与数据科学家更好地合作。 但是，为了使数据科学对所有背景和行业的人都具有更大的包容性，我们首先需要通过使数据简单易用使其*民主化*-这实际上就是本书的目的。


--- a/new/thoughtful-ds/06.md
+++ b/new/thoughtful-ds/06.md
 # 第 6 章。使用 TensorFlow 进行图像识别

-|   | *“人工智能，深度学习，机器学习-如果您不了解它，无论您在做什么-都要学习。否则，您将在 3 年内成为恐龙。”* |   |
-|   | -*马克·库班* |
+“人工智能，深度学习，机器学习————如果您不了解它，无论您在做什么————都要学习。否则，您将在 3 年内成为恐龙。”
+
+————马克·库班

 这是涵盖流行行业用例的一系列示例应用程序的第一章，并且我从与机器学习有关的用例开始，也不是巧合，尤其是通过图像识别示例应用程序进行深度学习。 在过去的几年中，我们看到在**人工智能**（**AI**）领域加速发展，以至于许多实际应用正在成为现实，例如，自动驾驶汽车以及具有先进的自动语音识别功能的聊天机器人，在某些任务上完全可以代替人工操作，而从学术界到工业界的越来越多的人开始涉足其中。 但是，人们认为入门成本非常高，并且掌握机器学习的基本数学概念是先决条件。 在本章中，我们试图通过使用示例来证明事实并非如此。

@@ -122,8 +123,8 @@ TensorFlow 高级 API 架构

 提醒一下，XOR 运算符只有四个训练示例：

-<colgroup class="calibre23"><col class="calibre24"> <col class="calibre24"> <col class="calibre24"></colgroup> 
-|`X`| `Y` | **结果** |
+| `X` | `Y` | **结果** |
+| --- | --- | --- |
 | 0 | 0 | 0 |
 | 0 | 1 | 1 |
 | 1 | 0 | 1 |

--- a/new/thoughtful-ds/07.md
+++ b/new/thoughtful-ds/07.md
 # 第 7 章。大数据 Twitter 情感分析

-|   | *“数据是新的石油。”* |   |
-|   | -*未知* |
+“数据是新的石油。”
+
+————未知

 在本章中，我们将研究 AI 和数据科学的两个重要领域：**自然语言处理**（**NLP**）和大数据分析。 对于支持的示例应用程序，我们重新实现了 Twitter 主题标签项目的情感分析，该项目在第 1 章“开发人员对数据科学的观点”中进行了介绍， 我们利用 Jupyter笔记本和 PixieDust 构建实时的仪表板，以分析从相关的推文流到特定实体（例如公司提供的产品）的数据，以提供情感信息，以及有关从相同推文中提取的趋势实体的其他信息。 在本章的最后，读者将学习如何将基于云的 NLP 服务（例如，IBM Watson 自然语言理解）集成到其应用程序中，以及如何在（Twitter）规模上使用诸如 Apache Spark。