提交 470c983b 编写于 作者: W wizardforcel

2021-03-10 20:12:15

上级 e4432033
......@@ -33,21 +33,12 @@ HTTP 方法有很多类型,例如 GET,HEAD,POST 和 PUT。 前两个用于
下表中总结了这些 HTTP 方法:
<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup>
|
HTTP 方法
|
描述
|
| HTTP 方法 | 描述 |
| --- | --- |
| 得到 | 从指定的 URL 检索信息 |
| | 从指定 URL 的 HTTP 标头中检索元信息 |
| 邮政 | 发送附加信息以附加到指定 URL 的资源 |
| | 发送附加信息以替换指定 URL 上的资源 |
| GET | 从指定的 URL 检索信息 |
| HEAD | 从指定 URL 的 HTTP 标头中检索元信息 |
| POST | 发送附加信息以附加到指定 URL 的资源 |
| PUT | 发送附加信息以替换指定 URL 上的资源 |
每次我们在浏览器中输入网页地址并按**输入**时,都会发送 GET 请求。 对于 Web 抓取,通常这是我们感兴趣的唯一 HTTP 方法,也是在本课程中将使用的唯一方法。
......
......@@ -242,20 +242,11 @@ Spark 是一项非常热门的技术,并且相对来说还很年轻,因此
但是,Python 容易得多,并且您不需要编译任何东西。 管理依赖关系也容易得多。 您可以真正地将时间集中在算法和您正在做的事情上,而不是真正地构建,运行,编译以及所有这些废话。 另外,显然,到目前为止,这本书一直专注于 Python,在这些讲座中,继续使用我们所学的知识并坚持使用 Python 是有意义的。 以下是这两种语言的优缺点的简要摘要:
| **Python** | **Scala** |
|
* 无需编译,管理依赖项等。
* 较少的编码开销
* 您已经知道 Python
* 让我们专注于概念而非新语言
|
* Scala 可能是 Spark 更受欢迎的选择
* Spark 是在 Scala 中构建的,因此 Scala 中的编码是 Spark
* 的“本机”。 Scala 优先
|
| --- | --- |
| 无需编译,管理依赖项等。 | Scala 可能是 Spark 更受欢迎的选择 |
| 较少的编码开销 | Spark 是在 Scala 中构建的,因此 Scala 中的编码是 Spark “原生”的。 |
| 您已经知道 Python | |
| 让我们专注于概念而非新语言 | |
但是,我要说的是,如果您要在现实世界中进行一些 Spark 编程,那么人们很有可能会使用 Scala。 不过,不必太担心它,因为在 Spark 中,Python 和 Scala 代码最终看起来非常相似,因为它们都围绕相同的 RDD 概念。 语法略有不同,但没有太大不同。 如果您能弄清楚如何使用 Python 执行 Spark,那么学习在 Scala 中使用它的步伐并不是很大。 这是两种语言的相同代码的快速示例:
......
......@@ -352,16 +352,7 @@ Minor_axis axis: 0 to 2
我们将使用具有以下结构的文件:
<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup>
|
柱子
|
描述
|
| 标题 | 描述 |
| --- | --- |
| `LOCATION CODE` | 唯一的位置代码 |
| `COUNTY` | 学校所属的县 |
......
......@@ -615,16 +615,7 @@ F 统计量由以下公式给出:
卡方检验可用于检验观察到的数据是否与预期数据有显着差异。 让我们以骰子为例。 掷骰子 36 次,每个面朝上的概率为 1/6。 因此,预期分布如下:
<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup>
|
预期频率
|
结果
|
| 预期频率 | 结果 |
| --- | --- |
| 6 | 1 |
| 6 | 2 |
......@@ -640,16 +631,7 @@ F 统计量由以下公式给出:
观察到的分布如下:
<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup>
|
观测频率
|
结果
|
| 观测频率 | 结果 |
| --- | --- |
| 7 | 1 |
| 5 | 2 |
......@@ -681,35 +663,9 @@ F 统计量由以下公式给出:
让我们以下面的示例为例,根据阅读者的性别来看一本书是否有偏好:
<colgroup><col style="text-align: left"> <col style="text-align: left"> <col style="text-align: left"> <col style="text-align: left"> <col style="text-align: left"></colgroup>
|
味道
|
| --- |
|
全部的
|
|
悬念
|
浪漫
|
性别
|
| 风格 | | | | |
| --- | --- | --- | --- | --- |
| 全部 | 自传 | 悬疑 | 浪漫 | 性别 |
| 280 | 60 | 120 | 100 | Men |
| 640 | 90 | 200 | 350 | Women |
| 920 | 150 | 320 | 450 |   |
......
......@@ -85,19 +85,10 @@
以下是字段描述:
<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup>
|
场地
|
说明
|
| 字段 | 说明 |
| --- | --- |
| `survival` | 生存(`0` =否,`1` =是) |
| `pclass` | 旅客舱位(`1` = 1,`2` = 2,`3` = 3) |
| `survival` | 生存(`0`:否,`1`是) |
| `pclass` | 旅客舱位(`1`:1,`2`:2,`3`3) |
| `name` | 旅客姓名 |
| `sex` | 旅客性别 |
| `age` | 乘客年龄 |
......@@ -105,8 +96,8 @@
| `parch` | 父母/子女人数 |
| `ticket` | 票号 |
| `fare` | 旅客票价 |
| `cabin` | 舱 |
| `embarked` | 登船港口(`C` =瑟堡,`Q` =皇后镇,`S` =南安普敦) |
| `cabin` | 舱 |
| `embarked` | 登船港口(`C`:瑟堡,`Q`:皇后镇,`S`南安普敦) |
由于数据非常易于理解,因此我们将生存分析作为可用于数据分析的主要主题。 我们将对这些主题附加问题。
......
......@@ -79,24 +79,7 @@
让我们举个例子。 以下数据根据天气,湿度和风力的总体情况表示您是否应该打网球:
<colgroup><col style="text-align: left"> <col style="text-align: left"> <col style="text-align: left"> <col style="text-align: left"></colgroup>
|
|
|
湿度
|
外表
|
| 玩 | 风力 | 湿度 | 天气 |
| --- | --- | --- | --- |
| `No` | `Low` | `High` | `Sunny` |
| `No` | `High` | `Normal` | `Rain` |
......@@ -132,16 +115,7 @@
让我们尝试通过一个例子来理解这一点。 下表显示了班级中学生的身高和体重清单:
<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup>
|
身高(英寸)
|
重量(磅)
|
| 身高(英寸) | 重量(磅) |
| --- | --- |
| 50 | 125 |
| 58 | 135 |
......
......@@ -284,22 +284,13 @@ Area under the ROC curve : 0.879934
精度由 ROC 曲线下的面积衡量。 面积 1 代表完美测试; `0.5`区域表示该模型与随机猜测一样好。 对诊断测试的准确性进行分类的大致指南是传统的学术评分系统,如下所示:
<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup>
|
范围
|
类别
|
| 范围 | 类别 |
| --- | --- |
| 0.90-1 | 这是指优秀(A) |
| 0.80-0.90 | 这指的是好(B) |
| 0.70-0.80 | 这是指公平(C) |
| 0.60-0.70 | 这是指差(D) |
| 0.50-0.60 | 这是指失败(F) |
| 0.90-1 | 优秀(A) |
| 0.80-0.90 | 好(B) |
| 0.70-0.80 | 一般(C) |
| 0.60-0.70 | 差(D) |
| 0.50-0.60 | 失败(F) |
上图中的虚线的 AUC 为`0.50`,不好。 我们的模型为我们提供了`0.88`的 AUC,这确实很好,并且是图中的蓝线。
......
......@@ -14,16 +14,7 @@
下表是由加州大学尔湾分校创建的收入普查数据集:
<colgroup><col style="text-align: left"> <col style="text-align: left"></colgroup>
|
|
描述
|
| 列 | 描述 |
| --- | --- |
| `age` | 这是指一个人的年龄 |
| `work class` | 这是指一个人从事的工作类型 |
......
......@@ -326,6 +326,7 @@ LIBSVM 或 LIBLINEAR 都不提供能够处理大型数据集的实现。 `SGDCla
Scikit-learn 提供的 SVM 分类的实现如下所示:
| **类** | **目的** | **超参数** |
| --- | --- | --- |
| `sklearn.svm.SVC` | 用于二进制和多类线性和核分类的 LIBSVM 实现 | `C`,核,度和伽马 |
| `sklearn.svm.NuSVC` | 与`.SVC`版本相同 | `nu`,内核,度和`gamma` |
| `sklearn.svm.OneClassSVM` | 无监督检测异常值 | `nu`,内核,度和`gamma` |
......@@ -403,6 +404,7 @@ In: from sklearn.cross_validation import cross_val_score, StratifiedKFold
至于回归,下面显示了 Scikit-learn 提出的 SVM 算法:
| **类** | **目的** | **超参数** |
| --- | --- | --- |
| `sklearn.svm.SVR` | LIBSVM 实现回归 | `C`,内核,度,伽玛和`epsilon` |
| `sklearn.svm.NuSVR` | 与`.SVR`相同 | `nu``C`,核,度和伽玛 |
......@@ -529,7 +531,8 @@ In: import numpy as np
现在让我们在表中检查粘贴,装袋,随机子空间和随机补丁的不同特征,这些特征是使用 Scikit-learn 中的`BaggingClassifier``BaggingRegressor`实现的:
| **组装** | **目的** | **超参数** |
| 贴上 | 使用子样本构建了许多模型(在不替换小于原始数据集的样本的情况下进行抽样) | `bootstrap=False``max_samples <1.0``max_features=1.0` |
| --- | --- | --- |
| 粘贴 | 使用子样本构建了许多模型(在不替换小于原始数据集的样本的情况下进行抽样) | `bootstrap=False``max_samples <1.0``max_features=1.0` |
| 装袋 | 使用自举案例的随机选择构建了许多模型(通过替换原始样本的相同大小进行采样) | `bootstrap=True``max_samples = 1.0``max_features=1.0` |
| 随机子空间 | 这与装袋相同,但是在选择每个模型时也会对特征进行采样 | `bootstrap=True``max_samples = 1.0``max_features<1.0` |
| 随机补丁 | 这与装袋相同,但是在选择每个模型时也会对要素进行采样 | `bootstrap=False``max_samples <1.0``max_features<1.0` |
......
......@@ -12,7 +12,8 @@
基本上,图是一种能够表示对象集合中的关系的数据结构。 在这种范式下,对象是图的节点,关系是图的链接(或边)。 如果链接具有方向(在概念上,它们就像城市的单向街道),则对图形进行定向。 否则,该图是无向的。 下表提供了众所周知的图形的示例:
| **图表示例** | **类型** | **节点** | **边** |
| **图示例** | **类型** | **节点** | **边** |
| --- | --- | --- | --- |
| 全球资讯网 | 导演 | 网页 | 链接 |
| Facebook | 无向 | 人们 | 友谊 |
| 推特 | 导演 | 人们 | 追随者 |
......
# 前言
|   | *“开发人员是当今商业中最重要,最有价值的选区,而与行业无关。”* |   |
|   | - *The New Kingmakers* 的作者 Stephen O'Grady |
“开发人员是当今商业中最重要,最有价值的选区,而与行业无关。”
————《The New Kingmakers》作者 Stephen O'Grady
首先,让我感谢您,并祝贺您,读者,决定决定花您宝贵的时间阅读本书。 在接下来的各章中,我将带您从开发人员的角度探索或什至重新发现数据科学的旅程,并将发展本书的主题,即数据科学是一项团队运动,并且,如果获得成功,开发人员将不得不在不久的将来扮演更大的角色,并与数据科学家更好地合作。 但是,为了使数据科学对所有背景和行业的人都具有更大的包容性,我们首先需要通过使数据简单易用使其*民主化*-这实际上就是本书的目的。
......
# 第 6 章。使用 TensorFlow 进行图像识别
|   | *“人工智能,深度学习,机器学习-如果您不了解它,无论您在做什么-都要学习。否则,您将在 3 年内成为恐龙。”* |   |
|   | -*马克·库班* |
“人工智能,深度学习,机器学习————如果您不了解它,无论您在做什么————都要学习。否则,您将在 3 年内成为恐龙。”
————马克·库班
这是涵盖流行行业用例的一系列示例应用程序的第一章,并且我从与机器学习有关的用例开始,也不是巧合,尤其是通过图像识别示例应用程序进行深度学习。 在过去的几年中,我们看到在**人工智能****AI**)领域加速发展,以至于许多实际应用正在成为现实,例如,自动驾驶汽车以及具有先进的自动语音识别功能的聊天机器人,在某些任务上完全可以代替人工操作,而从学术界到工业界的越来越多的人开始涉足其中。 但是,人们认为入门成本非常高,并且掌握机器学习的基本数学概念是先决条件。 在本章中,我们试图通过使用示例来证明事实并非如此。
......@@ -122,8 +123,8 @@ TensorFlow 高级 API 架构
提醒一下,XOR 运算符只有四个训练示例:
<colgroup class="calibre23"><col class="calibre24"> <col class="calibre24"> <col class="calibre24"></colgroup>
|`X`| `Y` | **结果** |
| `X` | `Y` | **结果** |
| --- | --- | --- |
| 0 | 0 | 0 |
| 0 | 1 | 1 |
| 1 | 0 | 1 |
......
# 第 7 章。大数据 Twitter 情感分析
|   | *“数据是新的石油。”* |   |
|   | -*未知* |
“数据是新的石油。”
————未知
在本章中,我们将研究 AI 和数据科学的两个重要领域:**自然语言处理****NLP**)和大数据分析。 对于支持的示例应用程序,我们重新实现了 Twitter 主题标签项目的情感分析,该项目在第 1 章“开发人员对数据科学的观点”中进行了介绍, 我们利用 Jupyter笔记本和 PixieDust 构建实时的仪表板,以分析从相关的推文流到特定实体(例如公司提供的产品)的数据,以提供情感信息,以及有关从相同推文中提取的趋势实体的其他信息。 在本章的最后,读者将学习如何将基于云的 NLP 服务(例如,IBM Watson 自然语言理解)集成到其应用程序中,以及如何在(Twitter)规模上使用诸如 Apache Spark。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册