提交 a2289fdb 编写于 作者: W wizardforcel

2021-03-10 20:51:42

上级 470c983b
......@@ -593,7 +593,7 @@ scikit_learn==0.19.0
继续我们对波士顿住房数据集的分析,我们可以看到它给我们带来了回归问题,在该问题中,我们根据给定的特征预测了一个连续的目标变量。 特别是,我们将预测中位数房屋价值(`MEDV`)。 我们将训练仅采用一项功能作为输入进行预测的模型。 这样,模型将在概念上易于理解,并且我们可以将更多精力放在 Scikit-learn API 的技术细节上。 然后,在下一课中,您将更轻松地处理相对复杂的模型。
### 带有 Seaborn 和 Scikit-learn 的线性模型
### 使用 Seaborn 和 Scikit-learn 的线性模型
1. 在 Jupyter笔记本中滚动至`Subtopic C: Introduction to predictive analytics`,然后在上方查看我们在上一节中创建的对图。 特别是,请查看左下角的散点图:
......@@ -933,7 +933,7 @@ scikit_learn==0.19.0
`MEDV`小提琴图不同,在每个小提琴图中,分布图的宽度大致相同,而这里的宽度随`AGE`的增加而增加。 以旧房屋为主的社区(“非常旧”的部分)的居民数量很少,甚至很多,而相对较新的社区更可能是较高阶级的人群,超过 95% 的样本的低阶级百分比低于“非常旧”的社区。 这是有道理的,因为相对而言,新街区会更昂贵。
# 摘要
# 总结
在本课程中,您已经了解了 Jupyter 中数据分析的基础。
......
......@@ -1196,7 +1196,7 @@ K 折交叉验证算法如下:
我们的模型允许管理层做出数据驱动的决策。 通过减少她在公司的工作时间这一特定数额,该模型告诉我们,她很可能将继续在公司任职!
# 摘要
# 总结
在本课程中,我们看到了如何在 Jupyter笔记本中训练预测模型。
......
......@@ -989,7 +989,7 @@ Bokeh 是一个用于 Python 的交互式可视化库。 其目标是提供与 D
![Activity B: Exploring Data with Interactive Visualizations](img/image3_63.jpg)
# 摘要
# 总结
在本课程中,我们抓取了网页表,然后使用交互式可视化工具来研究数据。
......
......@@ -985,7 +985,7 @@ MIDDLE/HIGH 53089 59.251116 65.905591
```
# 摘要
# 总结
在本章中,我们熟悉了 NumPy 和 Pandas 软件包。 我们了解了Pandas中不同的数据类型以及如何利用它们。 我们学习了如何执行数据清除和操作,其中我们处理了缺失值并执行了字符串操作。 本章为我们提供了数据科学的基础,您可以通过单击以下链接来更深入地了解 NumPy 和Pandas:
......
......@@ -731,7 +731,7 @@ F 统计量由以下公式给出:
输出的第一个值给出 F 值,第二个值给出 p 值。 由于 p 值略微大于 5%,因此我们可以看出三个国家的身高平均值没有显着差异。
# 摘要
# 总结
在本章中,您学习了各种概率分布。 您还了解了如何使用 Z 得分,p 值,类型 1 和类型 2 错误。 您了解了 Z 检验和 T 检验以及卡方分布,并了解了如何将其用于检验假设。
......
......@@ -378,7 +378,7 @@
* 与其他年龄组相比,年龄在 25-40 岁之间的幸存者人数最多,而且年龄较大的人要么不够幸运,要么被年轻人带到救生艇上。
# 摘要
# 总结
在本章中,我们了解了数据挖掘的含义。 我们了解了领域知识在执行分析以及如何以系统方式进行数据挖掘中的重要性。 我们还学习了如何呈现数据挖掘的结果。 最后,我们举了一个例子,并进行了一些分析以提取有用的信息。
......
......@@ -662,7 +662,7 @@ Matplotlib 库中的样式包使更改绘图图的样式更加容易。 更改
![A 3D plot of a surface](img/B03450_04_32.jpg)
# 摘要
# 总结
在本章中,您学习了如何使用图表的各种属性。 您还学习了如何组合多个图表并设置其样式。 通过本章您已经获得了许多高级可视化知识。
......
......@@ -235,7 +235,7 @@ K 均值聚类将在后面的章节中更详细地介绍,并带有实际示例
分层群集将在后面的章节中更详细地说明。
# 摘要
# 总结
在本章中,您了解了机器学习的含义及其不同类型。 还向您介绍了常用的机器学习算法。
......
......@@ -406,7 +406,7 @@ array([-0.3043391 , -0.42402161, 0.26890649])
![Training and testing a model](img/3450_06_16.jpg)
# 摘要
# 总结
在本章中,我们学习了如何创建简单的线性回归模型,然后再进行多元回归,其中对数据进行了初步检查分析以了解数据。 然后,我们使用 statsmodels 和 SciKit 包创建了回归模型。
......
......@@ -374,7 +374,7 @@ Area under the ROC curve :0.878275
![Model building and evaluation with SciKit](img/B03450_07_17.jpg)
# 摘要
# 总结
在本章中,您学习了逻辑回归的目的。 您学习了如何使用 statsmodels 和 SciKit 构建逻辑回归模型,然后如何评估模型并查看其是否为好模型。
......
......@@ -550,7 +550,7 @@ movie_user_preferences['William']['Gone Girl']
```
# 摘要
# 总结
在本章中,您学习了如何执行基于用户和基于项目的协作过滤。 您还了解了一些可用于计算用户和项目之间相似度的度量标准,以及如何应用此相似度为最终用户生成建议。
......
......@@ -433,7 +433,7 @@ GPA 高且属于非常春藤盟校的申请人与 GPA 低且属于非常春藤
我们可以看到,那些与平民配偶结婚的人可以很好地表明特定人群的收入是否超过 5 万美元。 接下来是人的年龄,最后是一个人每周工作的小时数。 此外,未婚人士是预测收入低于50K 刀的人群的良好指标。
# 摘要
# 总结
在本章中,我们探索了普查数据中的模式,然后了解了如何构建决策树,并且还基于给定的数据建立了决策树模型。 然后,您在随机森林的帮助下学习了集成模型的概念,并通过使用随机森林模型提高了预测的性能。
......
......@@ -448,7 +448,7 @@ Name: GDPperCapita, dtype: float64
女性也有类似的趋势。
# 摘要
# 总结
在本章中,使您了解了聚类的概念,并学习了一种称为 K 均值技术的无监督学习技术。 您还学习了如何在使用 K 均值分割数据之前确定群集的数量,最后,您看到了使用 K 均值群集的结果。
......
......@@ -704,7 +704,7 @@ def get_tweets(twython_object, query, n):
David Cameron 的推文在本质上更趋向积极。
# 摘要
# 总结
在本章中,您学习了如何清除非结构化文本数据,然后从这些数据中绘制了一个词云。 您学习了如何使用 NLTK 标记单词和句子。 您学习了如何执行部分语音标记以及词干和词根化的概念。 向您介绍了命名实体识别,并学习了如何使用 Stanford NER 应用它。 最后,您学习了如何使用 Twitter API 来获取推文,然后对其进行情感分析。
......
......@@ -789,7 +789,7 @@ Total: 19
我们可以看到 Spark 的节点数,当前正在执行的应用程序以及已执行的应用程序的数量。
# 摘要
# 总结
在本章中,向您介绍了大数据,了解了 Hadoop 软件的工作方式以及与之相关的架构。 然后,您学习了如何为 MapReduce 程序创建一个映射器和一个归约器,如何在本地对其进行测试,然后将其放入 Hadoop 并进行部署。 然后,您被介绍到 Hadoopy 库中,并且使用该库,您能够将文件放入 Hadoop。 您还了解了 Pig 以及如何使用它创建用户定义的函数。 最后,您了解了 Apache Spark,它是 MapReduce 的替代品,以及如何使用它来执行分布式计算。
......
......@@ -332,7 +332,7 @@ jupyter nbconvert <pathtonotebook.ipynb> --to slides
为了解决这些空白,我决定创建 [PixieDust](https://github.com/ibm-watson-data-lab/pixiedust) 库并将其开源。 正如我们将在下一章中看到的那样,PixieDust 的主要目标是通过提供简单的 API 来加载和降低新用户(无论是数据科学家还是开发人员)的*入门成本*。 可视化数据。 PixieDust 还为开发人员框架提供了 API,可轻松构建可直接在笔记本中运行并也可作为 Web 应用程序部署的应用程序,工具和仪表板。
# 摘要
# 总结
在本章中,我以开发人员的身份介绍了数据科学,并讨论了为什么我认为数据科学与 AI 和 Cloud 一起具有定义下一个计算时代的潜力的原因。 我还讨论了在充分发挥其潜力之前必须解决的许多问题。 虽然这本书并未假装提供解决所有这些问题的灵丹妙药,但它确实试图回答使数据科学民主化这一棘手但至关重要的问题,更具体地说,是*弥合了数据科学家与开发人员之间的鸿沟*
......
......@@ -774,7 +774,7 @@ PixieApps 非常适合快速构建单页应用程序和仪表板。 但是,您
将图表显示为网页
# 摘要
# 总结
在本章中,我们讨论了为什么我们的数据科学工具策略以 Python 和 Jupyter笔记本为中心的原因。 我们还介绍了 PixieDust 功能,这些功能可通过以下功能提高用户的工作效率:
......
......@@ -1073,7 +1073,7 @@ ConsumerApp.run()
[您可以在此处找到代码](https://github.com/DTAIEB/Thoughtful-Data-Science/blob/master/chapter%203/sampleCode18.py)
# 摘要
# 总结
在本章中,我们介绍了 PixieApp 编程模型的基本构建模块,使您可以直接在笔记本中创建强大的工具和仪表板。
......
......@@ -719,7 +719,7 @@ PixieDust Chart 选项
请注意,预热和运行代码不包含原始代码格式,因此可能更难以阅读。 您可以通过复制该问题并将代码粘贴到临时笔记本中并再次重新格式化来缓解此问题。
# 摘要
# 总结
阅读完本章后,您应该能够安装,配置和管理 PixieGateway 微服务服务器,将图表作为网页发布,以及将 PixieApp 从笔记本部署到 Web 应用程序。 无论您是在 Jupyter笔记本中从事分析工作的数据科学家还是开发人员针对企业用户编写和部署应用程序的开发人员,我们在本章中均已展示 PixieDust 如何帮助您更有效地完成任务并减少操作分析所需的时间。
......
......@@ -1293,7 +1293,7 @@ display(data)
如果您对了解更多有关`pixiedust_node`感兴趣,[我强烈推荐此博客文章](https://medium.com/ibm-watson-data-lab/nodebooks-node-js-data-science-notebooks-aa140bea21ba)。 与往常一样,我鼓励读者通过贡献代码或增强想法来参与改进这些工具。
# 摘要
# 总结
在本章中,我们探讨了各种高级概念,工具和最佳实践,这些新概念,工具和最佳做法为我们的工具箱添加了更多工具,范围包括用于 PixieApps 的高级技术(流式处理,如何通过将第三方库与`@captureOutput`集成,实现路线, PixieApp 事件,以及使用`pd_app`更好的模块性,以实现诸如 PixieDebugger 之类的基本开发人员工具。 我们还介绍了如何使用 PixieDust `display()` API 创建自己的自定义可视化效果的详细信息。 我们还讨论了`pixiedust_node,`,它是 PixieDust 框架的扩展,使对 JavaScript 更熟悉的开发人员可以使用自己喜欢的语言处理数据。
......
......@@ -1497,7 +1497,7 @@ def do_score_url(self, score_url):
3. 我们将 TensorBoard 图形可视化集成到 PixieApp 中
4. 我们使用户能够使用来自 ImageNet 的自定义训练数据来重新训练模型
# 摘要
# 总结
机器学习是一个巨大的主题,无论在研发方面,它都得到了巨大的发展。 在本章中,我们仅结合机器学习算法探索了最新技术,即使用深度学习神经网络执行图像识别。 对于刚开始熟悉机器学习的一些读者来说,示例 PixieApps 和相关的算法代码可能太深,无法一次消化。 但是,其根本目的是演示如何迭代地构建利用机器学习模型的应用程序。 我们曾经尝试使用卷积神经网络模型进行图像识别,但是任何其他模型都可以。
......
......@@ -1718,7 +1718,7 @@ KafkaClient {
我们必须在本节末尾编写的额外代码提醒我们,处理数据的过程绝非直线。 我们必须准备应对本质上可能不同的障碍:依赖库中的错误或外部服务中的限制。 克服这些障碍并不需要长时间停止该项目。 由于我们主要使用开放源代码组件,因此我们可以在 Stack Overflow 等社交网站上利用志趣相投的开发人员组成的庞大社区,获得新的想法和代码示例,并在 Jupyter笔记本上快速进行实验。
# 摘要
# 总结
在本章中,我们建立了一个数据管道,该管道可以分析包含非结构化文本的大量流数据,并应用来自外部云服务的 NLP 算法提取文本中的情感和其他重要实体。 我们还构建了一个 PixieApp 仪表板,该仪表板显示实时指标以及从推文中提取的见解。 我们还讨论了各种用于大规模分析数据的技术,包括 Apache Spark 结构化流技术,Apache Kafka 和 IBM Streaming Analytics。 与往常一样,这些示例应用程序的目标是展示建立数据管道的可能性,并特别关注利用现有框架,库和云服务。
......
......@@ -1928,7 +1928,7 @@ def build_arima_model_screen(self, p_order, d_order, q_order):
[笔记本的完整实现可以在这里找到](https://github.com/DTAIEB/Thoughtful-Data-Science/blob/master/chapter%208/StockExplorer%20-%20Part%202.ipynb)
# 摘要
# 总结
在本章中,我们谈到了时间序列分析和预测的主题。 当然,我们只是从头开始,当然还有很多需要探索的地方。 通过非常积极的研究,它也是该行业的一个非常重要的领域,尤其是在金融领域。 例如,我们看到越来越多的数据科学家试图基于[递归神经网络](https://en.wikipedia.org/wiki/Recurrent_neural_network)算法建立时间序列预测模型,并取得了巨大的成功。 我们还演示了 Jupyter笔记本与 PixieDust 和`pandas``numpy``statsmodels,`之类的库生态系统相结合如何帮助加速分析的开发,以及将其操作化投入业务用户线可使用的应用程序。
......
......@@ -1700,7 +1700,7 @@ class RouteAnalysisApp(TemplateTabbedApp):
提醒一下,虽然只是一个示例应用程序,仍有很大的改进空间,但使用 PixieApp 编程模型进行数据分析的技术将在其他任何项目中同样应用。
# 摘要
# 总结
在本章中,我们讨论了图及其相关的图论,并探讨了其数据结构和算法。 我们还简要介绍了`networkx` Python 库,该库提供了丰富的用于处理和可视化图形的 API 集。 然后,我们将这些技术应用于构建示例应用程序,该应用程序通过将飞行数据视为一个图问题(以机场为顶点并沿边缘飞行)来分析飞行数据。 与往常一样,我们还展示了如何将这些分析操作化为一个简单但功能强大的仪表板,该仪表板可以直接在 Jupyter笔记本中运行,然后可以选择通过 PixieGateway 微服务作为 Web 分析应用程序进行部署。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册