Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
apachecn-ds-zh
提交
470c983b
A
apachecn-ds-zh
项目概览
OpenDocCN
/
apachecn-ds-zh
大约 1 年 前同步成功
通知
1
Star
287
Fork
69
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-ds-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
470c983b
编写于
3月 10, 2021
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2021-03-10 20:12:15
上级
e4432033
变更
13
隐藏空白更改
内联
并排
Showing
13 changed file
with
46 addition
and
163 deletion
+46
-163
new/begin-ds-py-jupyter/3.md
new/begin-ds-py-jupyter/3.md
+5
-14
new/handson-ds-py-ml/09.md
new/handson-ds-py-ml/09.md
+5
-14
new/master-py-ds/01.md
new/master-py-ds/01.md
+1
-10
new/master-py-ds/02.md
new/master-py-ds/02.md
+4
-48
new/master-py-ds/03.md
new/master-py-ds/03.md
+5
-14
new/master-py-ds/05.md
new/master-py-ds/05.md
+2
-28
new/master-py-ds/07.md
new/master-py-ds/07.md
+6
-15
new/master-py-ds/09.md
new/master-py-ds/09.md
+1
-10
new/py-ds-essentials/4.md
new/py-ds-essentials/4.md
+4
-1
new/py-ds-essentials/6.md
new/py-ds-essentials/6.md
+2
-1
new/thoughtful-ds/00.md
new/thoughtful-ds/00.md
+3
-2
new/thoughtful-ds/06.md
new/thoughtful-ds/06.md
+5
-4
new/thoughtful-ds/07.md
new/thoughtful-ds/07.md
+3
-2
未找到文件。
new/begin-ds-py-jupyter/3.md
浏览文件 @
470c983b
...
...
@@ -33,21 +33,12 @@ HTTP 方法有很多类型,例如 GET,HEAD,POST 和 PUT。 前两个用于
下表中总结了这些 HTTP 方法:
<colgroup><col
style=
"text-align: left"
>
<col
style=
"text-align: left"
></colgroup>
|
HTTP 方法
|
描述
|
| HTTP 方法 | 描述 |
| --- | --- |
|
得到
| 从指定的 URL 检索信息 |
|
头
| 从指定 URL 的 HTTP 标头中检索元信息 |
|
邮政
| 发送附加信息以附加到指定 URL 的资源 |
|
放
| 发送附加信息以替换指定 URL 上的资源 |
|
GET
| 从指定的 URL 检索信息 |
|
HEAD
| 从指定 URL 的 HTTP 标头中检索元信息 |
|
POST
| 发送附加信息以附加到指定 URL 的资源 |
|
PUT
| 发送附加信息以替换指定 URL 上的资源 |
每次我们在浏览器中输入网页地址并按
**输入**
时,都会发送 GET 请求。 对于 Web 抓取,通常这是我们感兴趣的唯一 HTTP 方法,也是在本课程中将使用的唯一方法。
...
...
new/handson-ds-py-ml/09.md
浏览文件 @
470c983b
...
...
@@ -242,20 +242,11 @@ Spark 是一项非常热门的技术,并且相对来说还很年轻,因此
但是,Python 容易得多,并且您不需要编译任何东西。 管理依赖关系也容易得多。 您可以真正地将时间集中在算法和您正在做的事情上,而不是真正地构建,运行,编译以及所有这些废话。 另外,显然,到目前为止,这本书一直专注于 Python,在这些讲座中,继续使用我们所学的知识并坚持使用 Python 是有意义的。 以下是这两种语言的优缺点的简要摘要:
|
**Python**
|
**Scala**
|
|
*
无需编译,管理依赖项等。
*
较少的编码开销
*
您已经知道 Python
*
让我们专注于概念而非新语言
|
*
Scala 可能是 Spark 更受欢迎的选择
*
Spark 是在 Scala 中构建的,因此 Scala 中的编码是 Spark
*
的“本机”。 Scala 优先
|
| --- | --- |
| 无需编译,管理依赖项等。 | Scala 可能是 Spark 更受欢迎的选择 |
| 较少的编码开销 | Spark 是在 Scala 中构建的,因此 Scala 中的编码是 Spark “原生”的。 |
| 您已经知道 Python | |
| 让我们专注于概念而非新语言 | |
但是,我要说的是,如果您要在现实世界中进行一些 Spark 编程,那么人们很有可能会使用 Scala。 不过,不必太担心它,因为在 Spark 中,Python 和 Scala 代码最终看起来非常相似,因为它们都围绕相同的 RDD 概念。 语法略有不同,但没有太大不同。 如果您能弄清楚如何使用 Python 执行 Spark,那么学习在 Scala 中使用它的步伐并不是很大。 这是两种语言的相同代码的快速示例:
...
...
new/master-py-ds/01.md
浏览文件 @
470c983b
...
...
@@ -352,16 +352,7 @@ Minor_axis axis: 0 to 2
我们将使用具有以下结构的文件:
<colgroup><col
style=
"text-align: left"
>
<col
style=
"text-align: left"
></colgroup>
|
柱子
|
描述
|
| 标题 | 描述 |
| --- | --- |
|
`LOCATION CODE`
| 唯一的位置代码 |
|
`COUNTY`
| 学校所属的县 |
...
...
new/master-py-ds/02.md
浏览文件 @
470c983b
...
...
@@ -615,16 +615,7 @@ F 统计量由以下公式给出:
卡方检验可用于检验观察到的数据是否与预期数据有显着差异。 让我们以骰子为例。 掷骰子 36 次,每个面朝上的概率为 1/6。 因此,预期分布如下:
<colgroup><col
style=
"text-align: left"
>
<col
style=
"text-align: left"
></colgroup>
|
预期频率
|
结果
|
| 预期频率 | 结果 |
| --- | --- |
| 6 | 1 |
| 6 | 2 |
...
...
@@ -640,16 +631,7 @@ F 统计量由以下公式给出:
观察到的分布如下:
<colgroup><col
style=
"text-align: left"
>
<col
style=
"text-align: left"
></colgroup>
|
观测频率
|
结果
|
| 观测频率 | 结果 |
| --- | --- |
| 7 | 1 |
| 5 | 2 |
...
...
@@ -681,35 +663,9 @@ F 统计量由以下公式给出:
让我们以下面的示例为例,根据阅读者的性别来看一本书是否有偏好:
<colgroup><col
style=
"text-align: left"
>
<col
style=
"text-align: left"
>
<col
style=
"text-align: left"
>
<col
style=
"text-align: left"
>
<col
style=
"text-align: left"
></colgroup>
|
味道
|
| --- |
|
全部的
|
传
|
悬念
|
浪漫
|
性别
|
| 风格 | | | | |
| --- | --- | --- | --- | --- |
| 全部 | 自传 | 悬疑 | 浪漫 | 性别 |
| 280 | 60 | 120 | 100 | Men |
| 640 | 90 | 200 | 350 | Women |
| 920 | 150 | 320 | 450 | |
...
...
new/master-py-ds/03.md
浏览文件 @
470c983b
...
...
@@ -85,19 +85,10 @@
以下是字段描述:
<colgroup><col
style=
"text-align: left"
>
<col
style=
"text-align: left"
></colgroup>
|
场地
|
说明
|
| 字段 | 说明 |
| --- | --- |
|
`survival`
| 生存(
`0`
=否,
`1`
=
是) |
|
`pclass`
| 旅客舱位(
`1`
= 1,
`2`
= 2,
`3`
=
3) |
|
`survival`
| 生存(
`0`
:否,
`1`
:
是) |
|
`pclass`
| 旅客舱位(
`1`
:1,
`2`
:2,
`3`
:
3) |
|
`name`
| 旅客姓名 |
|
`sex`
| 旅客性别 |
|
`age`
| 乘客年龄 |
...
...
@@ -105,8 +96,8 @@
|
`parch`
| 父母/子女人数 |
|
`ticket`
| 票号 |
|
`fare`
| 旅客票价 |
|
`cabin`
| 舱 |
|
`embarked`
| 登船港口(
`C`
=瑟堡,
`Q`
=皇后镇,
`S`
=
南安普敦) |
|
`cabin`
| 舱
号
|
|
`embarked`
| 登船港口(
`C`
:瑟堡,
`Q`
:皇后镇,
`S`
:
南安普敦) |
由于数据非常易于理解,因此我们将生存分析作为可用于数据分析的主要主题。 我们将对这些主题附加问题。
...
...
new/master-py-ds/05.md
浏览文件 @
470c983b
...
...
@@ -79,24 +79,7 @@
让我们举个例子。 以下数据根据天气,湿度和风力的总体情况表示您是否应该打网球:
<colgroup><col
style=
"text-align: left"
>
<col
style=
"text-align: left"
>
<col
style=
"text-align: left"
>
<col
style=
"text-align: left"
></colgroup>
|
玩
|
风
|
湿度
|
外表
|
| 玩 | 风力 | 湿度 | 天气 |
| --- | --- | --- | --- |
|
`No`
|
`Low`
|
`High`
|
`Sunny`
|
|
`No`
|
`High`
|
`Normal`
|
`Rain`
|
...
...
@@ -132,16 +115,7 @@
让我们尝试通过一个例子来理解这一点。 下表显示了班级中学生的身高和体重清单:
<colgroup><col
style=
"text-align: left"
>
<col
style=
"text-align: left"
></colgroup>
|
身高(英寸)
|
重量(磅)
|
| 身高(英寸) | 重量(磅) |
| --- | --- |
| 50 | 125 |
| 58 | 135 |
...
...
new/master-py-ds/07.md
浏览文件 @
470c983b
...
...
@@ -284,22 +284,13 @@ Area under the ROC curve : 0.879934
精度由 ROC 曲线下的面积衡量。 面积 1 代表完美测试;
`0.5`
区域表示该模型与随机猜测一样好。 对诊断测试的准确性进行分类的大致指南是传统的学术评分系统,如下所示:
<colgroup><col
style=
"text-align: left"
>
<col
style=
"text-align: left"
></colgroup>
|
范围
|
类别
|
| 范围 | 类别 |
| --- | --- |
| 0.90-1 |
这是指
优秀(A) |
| 0.80-0.90 |
这指的是
好(B) |
| 0.70-0.80 |
这是指公平
(C) |
| 0.60-0.70 |
这是指
差(D) |
| 0.50-0.60 |
这是指
失败(F) |
| 0.90-1 | 优秀(A) |
| 0.80-0.90 |
良
好(B) |
| 0.70-0.80 |
一般
(C) |
| 0.60-0.70 | 差(D) |
| 0.50-0.60 | 失败(F) |
上图中的虚线的 AUC 为
`0.50`
,不好。 我们的模型为我们提供了
`0.88`
的 AUC,这确实很好,并且是图中的蓝线。
...
...
new/master-py-ds/09.md
浏览文件 @
470c983b
...
...
@@ -14,16 +14,7 @@
下表是由加州大学尔湾分校创建的收入普查数据集:
<colgroup><col
style=
"text-align: left"
>
<col
style=
"text-align: left"
></colgroup>
|
列
|
描述
|
| 列 | 描述 |
| --- | --- |
|
`age`
| 这是指一个人的年龄 |
|
`work class`
| 这是指一个人从事的工作类型 |
...
...
new/py-ds-essentials/4.md
浏览文件 @
470c983b
...
...
@@ -326,6 +326,7 @@ LIBSVM 或 LIBLINEAR 都不提供能够处理大型数据集的实现。 `SGDCla
Scikit-learn 提供的 SVM 分类的实现如下所示:
|
**类**
|
**目的**
|
**超参数**
|
| --- | --- | --- |
|
`sklearn.svm.SVC`
| 用于二进制和多类线性和核分类的 LIBSVM 实现 |
`C`
,核,度和伽马 |
|
`sklearn.svm.NuSVC`
| 与
`.SVC`
版本相同 |
`nu`
,内核,度和
`gamma`
|
|
`sklearn.svm.OneClassSVM`
| 无监督检测异常值 |
`nu`
,内核,度和
`gamma`
|
...
...
@@ -403,6 +404,7 @@ In: from sklearn.cross_validation import cross_val_score, StratifiedKFold
至于回归,下面显示了 Scikit-learn 提出的 SVM 算法:
|
**类**
|
**目的**
|
**超参数**
|
| --- | --- | --- |
|
`sklearn.svm.SVR`
| LIBSVM 实现回归 |
`C`
,内核,度,伽玛和
`epsilon`
|
|
`sklearn.svm.NuSVR`
| 与
`.SVR`
相同 |
`nu`
,
`C`
,核,度和伽玛 |
...
...
@@ -529,7 +531,8 @@ In: import numpy as np
现在让我们在表中检查粘贴,装袋,随机子空间和随机补丁的不同特征,这些特征是使用 Scikit-learn 中的
`BaggingClassifier`
和
`BaggingRegressor`
实现的:
|
**组装**
|
**目的**
|
**超参数**
|
| 贴上 | 使用子样本构建了许多模型(在不替换小于原始数据集的样本的情况下进行抽样) |
`bootstrap=False``max_samples <1.0``max_features=1.0`
|
| --- | --- | --- |
| 粘贴 | 使用子样本构建了许多模型(在不替换小于原始数据集的样本的情况下进行抽样) |
`bootstrap=False``max_samples <1.0``max_features=1.0`
|
| 装袋 | 使用自举案例的随机选择构建了许多模型(通过替换原始样本的相同大小进行采样) |
`bootstrap=True``max_samples = 1.0``max_features=1.0`
|
| 随机子空间 | 这与装袋相同,但是在选择每个模型时也会对特征进行采样 |
`bootstrap=True``max_samples = 1.0``max_features<1.0`
|
| 随机补丁 | 这与装袋相同,但是在选择每个模型时也会对要素进行采样 |
`bootstrap=False``max_samples <1.0``max_features<1.0`
|
...
...
new/py-ds-essentials/6.md
浏览文件 @
470c983b
...
...
@@ -12,7 +12,8 @@
基本上,图是一种能够表示对象集合中的关系的数据结构。 在这种范式下,对象是图的节点,关系是图的链接(或边)。 如果链接具有方向(在概念上,它们就像城市的单向街道),则对图形进行定向。 否则,该图是无向的。 下表提供了众所周知的图形的示例:
|
**图表示例**
|
**类型**
|
**节点**
|
**边**
|
|
**图示例**
|
**类型**
|
**节点**
|
**边**
|
| --- | --- | --- | --- |
| 全球资讯网 | 导演 | 网页 | 链接 |
| Facebook | 无向 | 人们 | 友谊 |
| 推特 | 导演 | 人们 | 追随者 |
...
...
new/thoughtful-ds/00.md
浏览文件 @
470c983b
# 前言
| |
*“开发人员是当今商业中最重要,最有价值的选区,而与行业无关。”*
| |
| | -
*The New Kingmakers*
的作者 Stephen O'Grady |
“开发人员是当今商业中最重要,最有价值的选区,而与行业无关。”
————《The New Kingmakers》作者 Stephen O'Grady
首先,让我感谢您,并祝贺您,读者,决定决定花您宝贵的时间阅读本书。 在接下来的各章中,我将带您从开发人员的角度探索或什至重新发现数据科学的旅程,并将发展本书的主题,即数据科学是一项团队运动,并且,如果获得成功,开发人员将不得不在不久的将来扮演更大的角色,并与数据科学家更好地合作。 但是,为了使数据科学对所有背景和行业的人都具有更大的包容性,我们首先需要通过使数据简单易用使其
*民主化*
-这实际上就是本书的目的。
...
...
new/thoughtful-ds/06.md
浏览文件 @
470c983b
# 第 6 章。使用 TensorFlow 进行图像识别
| |
*“人工智能,深度学习,机器学习-如果您不了解它,无论您在做什么-都要学习。否则,您将在 3 年内成为恐龙。”*
| |
| | -
*马克·库班*
|
“人工智能,深度学习,机器学习————如果您不了解它,无论您在做什么————都要学习。否则,您将在 3 年内成为恐龙。”
————马克·库班
这是涵盖流行行业用例的一系列示例应用程序的第一章,并且我从与机器学习有关的用例开始,也不是巧合,尤其是通过图像识别示例应用程序进行深度学习。 在过去的几年中,我们看到在
**人工智能**
(
**AI**
)领域加速发展,以至于许多实际应用正在成为现实,例如,自动驾驶汽车以及具有先进的自动语音识别功能的聊天机器人,在某些任务上完全可以代替人工操作,而从学术界到工业界的越来越多的人开始涉足其中。 但是,人们认为入门成本非常高,并且掌握机器学习的基本数学概念是先决条件。 在本章中,我们试图通过使用示例来证明事实并非如此。
...
...
@@ -122,8 +123,8 @@ TensorFlow 高级 API 架构
提醒一下,XOR 运算符只有四个训练示例:
<colgroup
class=
"calibre23"
><col
class=
"calibre24"
>
<col
class=
"calibre24"
>
<col
class=
"calibre24"
></colgroup>
|
`X`
|
`Y`
|
**结果**
|
|
`X`
|
`Y`
|
**结果**
|
|
--- | --- | ---
|
| 0 | 0 | 0 |
| 0 | 1 | 1 |
| 1 | 0 | 1 |
...
...
new/thoughtful-ds/07.md
浏览文件 @
470c983b
# 第 7 章。大数据 Twitter 情感分析
| |
*“数据是新的石油。”*
| |
| | -
*未知*
|
“数据是新的石油。”
————未知
在本章中,我们将研究 AI 和数据科学的两个重要领域:
**自然语言处理**
(
**NLP**
)和大数据分析。 对于支持的示例应用程序,我们重新实现了 Twitter 主题标签项目的情感分析,该项目在第 1 章“开发人员对数据科学的观点”中进行了介绍, 我们利用 Jupyter笔记本和 PixieDust 构建实时的仪表板,以分析从相关的推文流到特定实体(例如公司提供的产品)的数据,以提供情感信息,以及有关从相同推文中提取的趋势实体的其他信息。 在本章的最后,读者将学习如何将基于云的 NLP 服务(例如,IBM Watson 自然语言理解)集成到其应用程序中,以及如何在(Twitter)规模上使用诸如 Apache Spark。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录