提交 677b545c 编写于 作者: W wizardforcel

2021-03-09 10:58:35

上级 81d2e9cd
......@@ -295,7 +295,7 @@ df.head()
```
在此代码中,我们基于`similarMovies`创建一个新的`DataFrame`,在其中提取`similarity`列,并将其与我们的`movieStats` DataFrame(即我们的`popularMovies` DataFrame)结合起来,然后查看合并后的结果。 而且,我们可以得到该输出!
在此代码中,我们基于`similarMovies`创建一个新的`DataFrame`,在其中提取`similarity`列,并将其与我们的`movieStats DataFrame`(即我们的`popularMovies DataFrame`)结合起来,然后查看合并后的结果。 而且,我们可以得到该输出!
![](img/d6cd490d-abff-4766-9c8c-f0aebddb1ead.jpg)
......
......@@ -636,4 +636,4 @@ plt.show()
# 概括
在本章中,我们讨论了在偏差和方差之间保持平衡并最小化误差的重要性。 接下来,我们看到了 K 折交叉验证的概念以及如何在 Python 中实现它以防止过度拟合。 我们了解了在处理数据之前清理数据并对其进行标准化的重要性。 然后,我们看到了一个确定网站受欢迎页面的示例。 在第 9 章和“Apache Spark-大数据机器学习”中,我们将使用 Apache Spark 学习大数据机器学习。
\ No newline at end of file
在本章中,我们讨论了在偏差和方差之间保持平衡并最小化误差的重要性。 接下来,我们看到了 K 折交叉验证的概念以及如何在 Python 中实现它以防止过度拟合。 我们了解了在处理数据之前清理数据并对其进行标准化的重要性。 然后,我们看到了一个确定网站受欢迎页面的示例。 在第 9 章,“Apache Spark-大数据机器学习”中,我们将使用 Apache Spark 学习大数据机器学习。
\ No newline at end of file
......@@ -38,7 +38,7 @@ A/B 测试会将人们分成看到橙色按钮的人们和看到蓝色按钮的
* **设计更改**:这些可以是按钮颜色,按钮位置或页面布局的更改。
* **UI 流程**:因此,也许您实际上是在改变购买渠道的工作方式以及人们在您的网站上结帐的方式,并且您实际上可以衡量其效果。
* **算法更改**:让我们考虑在第 6 章“推荐系统”中讨论过的电影推荐示例。 也许我想测试一种算法与另一种算法。 我真正关心的不是去依靠错误指标和我进行火车测试的能力,而是要去驱动购买或租赁,或者本网站上的任何内容。
* **算法更改**:让我们考虑在第 6 章“推荐系统”中讨论过的电影推荐示例。 也许我想测试一种算法与另一种算法。 我真正关心的不是去依靠错误指标和我进行火车测试的能力,而是要去驱动购买或租赁,或者本网站上的任何内容。
* A/B 测试可以让我直接测量该算法对我真正关心的最终结果的影响,而不仅仅是我预测别人已经看过的电影的能力。
* 您还可以梦想得到的任何其他东西,实际上,影响用户与您的网站交互方式的任何更改都值得测试。 也许甚至可以使网站更快,或者可以是任何东西。
......
......@@ -6,29 +6,29 @@
# 这本书涵盖的内容
第 1 章“原始数据入门”教给您处理无组织数据的技术。 您还将学习如何从不同来源提取数据,以及如何清理和处理数据。
第 1 章“原始数据入门”教给您处理无组织数据的技术。 您还将学习如何从不同来源提取数据,以及如何清理和处理数据。
第 2 章“推断统计”超出了描述统计,您将在其中了解推断统计的概念,例如分布,不同的统计检验,统计检验中的错误以及置信区间 。
第 2 章“推断统计”超出了描述统计,您将在其中了解推断统计的概念,例如分布,不同的统计检验,统计检验中的错误以及置信区间 。
第 3 章“在干草堆中找针”解释了什么是数据挖掘以及如何利用它。 数据中包含很多信息,但是找到有意义的信息是一门艺术。
第 3 章“在干草堆中找针”解释了什么是数据挖掘以及如何利用它。 数据中包含很多信息,但是找到有意义的信息是一门艺术。
第 4 章“通过高级可视化来了解数据”,教您如何创建不同的数据可视化。 可视化是数据科学不可或缺的一部分; 它有助于传达无法通过查看原始数据看到的模式或关系。
第 4 章“通过高级可视化来了解数据”,教您如何创建不同的数据可视化。 可视化是数据科学不可或缺的一部分; 它有助于传达无法通过查看原始数据看到的模式或关系。
第 5 章“揭秘机器学习”,向您介绍机器学习的不同技术以及如何应用它们。 机器学习是业界新的流行语。 它用于 Google 的无人驾驶汽车等活动,并预测营销活动的有效性。
第 5 章“揭秘机器学习”,向您介绍机器学习的不同技术以及如何应用它们。 机器学习是业界新的流行语。 它用于 Google 的无人驾驶汽车等活动,并预测营销活动的有效性。
第 6 章“使用线性回归执行预测”可帮助您建立简单的回归模型,然后建立多个回归模型以及测试模型有效性的方法。 线性回归是当今业界用于模型构建的最流行技术之一。
第 6 章“使用线性回归执行预测”可帮助您建立简单的回归模型,然后建立多个回归模型以及测试模型有效性的方法。 线性回归是当今业界用于模型构建的最流行技术之一。
第 7 章“估计事件的可能性”教您如何建立逻辑回归模型以及评估它的不同技术。 使用逻辑回归,您将能够学习如何估算事件发生的可能性。
第 7 章“估计事件的可能性”教您如何建立逻辑回归模型以及评估它的不同技术。 使用逻辑回归,您将能够学习如何估算事件发生的可能性。
第 8 章“通过协作过滤生成建议”教您创建并应用推荐模型。 它类似于网站(例如 Amazon),该网站能够建议您可能会在其页面上购买的商品。
第 8 章“通过协作过滤生成建议”教您创建并应用推荐模型。 它类似于网站(例如 Amazon),该网站能够建议您可能会在其页面上购买的商品。
第 9 章“使用集成模型推展边界”使您熟悉集成技术,该技术用于组合多个模型的功能以增强预测的准确性。 这样做是因为有时单个模型不足以估计结果。
第 9 章“使用集成模型推展边界”使您熟悉集成技术,该技术用于组合多个模型的功能以增强预测的准确性。 这样做是因为有时单个模型不足以估计结果。
第 10 章“将分段与 K 均值聚类一起应用”教您有关 K 均值聚类及其使用方法。 细分在行业中广泛用于将相似的客户分组在一起。
第 10 章“将分段与 K 均值聚类一起应用”教您有关 K 均值聚类及其使用方法。 细分在行业中广泛用于将相似的客户分组在一起。
第 11 章“使用文本挖掘分析非结构化数据”,教您处理非结构化数据并弄清它们。 世界上非结构化数据比结构化数据更多。
第 11 章“使用文本挖掘分析非结构化数据”,教您处理非结构化数据并弄清它们。 世界上非结构化数据比结构化数据更多。
第 12 章“在大数据世界中利用 Python”在本章中教您将 Hadoop 和 Spark 与 Python 一起使用来处理数据。 随着数据规模的不断增长,已经出现了大数据技术来处理此类数据。
第 12 章“在大数据世界中利用 Python”在本章中教您将 Hadoop 和 Spark 与 Python 一起使用来处理数据。 随着数据规模的不断增长,已经出现了大数据技术来处理此类数据。
# 这本书需要什么
......
......@@ -137,7 +137,7 @@ Logistic 回归是一种回归分析,可帮助您根据某些给定参数估
![Model evaluation](img/B03450_07_04.jpg)
从前面的图中可以看出,在`0``1`的概率附近密度较高,这是一个好兆头,表明该模型能够根据给定的数据预测某些模式。 这也表明密度是最高的,接近 0,这意味着很多人无法生存。 这证明了我们在第 3 章“在干草堆中寻找针”中执行的分析。
从前面的图中可以看出,在`0``1`的概率附近密度较高,这是一个好兆头,表明该模型能够根据给定的数据预测某些模式。 这也表明密度是最高的,接近 0,这意味着很多人无法生存。 这证明了我们在第 3 章“在干草堆中寻找针”中执行的分析。
让我们看看基于男性的预测分布:
......@@ -154,7 +154,7 @@ Logistic 回归是一种回归分析,可帮助您根据某些给定参数估
![Model evaluation](img/B03450_07_05.jpg)
我们可以看到,模型预测表明,如果乘客是男性,那么与女性相比,生存机会要低。 我们的分析在第 3 章“在干草堆中寻找针”中也显示了这一点,其中发现女性的成活率更高。
我们可以看到,模型预测表明,如果乘客是男性,那么与女性相比,生存机会要低。 我们的分析在第 3 章“在干草堆中寻找针”中也显示了这一点,其中发现女性的成活率更高。
现在,让我们看一下基于下层乘客的预测分布:
......
......@@ -18,17 +18,17 @@
第 1 章,“第一步”,介绍了 Jupyter笔记本,并演示了如何访问教程中运行的数据。
第 2 章“数据整理”介绍了所有关键的数据操作和转换技术,重点介绍了进行谋杀活动的最佳实践。
第 2 章“数据整理”介绍了所有关键的数据操作和转换技术,重点介绍了进行谋杀活动的最佳实践。
第 3 章“数据管道”讨论了可能改善数据科学项目结果的所有操作,使读者能够进行高级数据操作。
第 3 章“数据管道”讨论了可能改善数据科学项目结果的所有操作,使读者能够进行高级数据操作。
第 4 章,“机器学习”提出了 Scikit-learn 库中可用的最重要的学习算法。 将向读者展示实际应用以及需要检查的重要内容以及为从每种学习技术中获得最佳效果而需要调整的参数。
第 5 章,“可视化,见解和结果”为您提供基础和中级的图形表示形式,对于表示和视觉理解复杂的数据结构和从机器学习中获得的结果是必不可少的。
第 6 章“社交网络分析”为读者提供了处理代表社会关系和互动的数据的实用有效技巧。
第 6 章“社交网络分析”为读者提供了处理代表社会关系和互动的数据的实用有效技巧。
第 7 章“超越基础的深度学习”演示了如何从头开始构建卷积神经网络,介绍了该行业的所有工具以增强您的深度学习模型,并说明了*迁移学习*以及如何使用递归神经网络对文本进行分类和预测序列的工作。
第 7 章“超越基础的深度学习”演示了如何从头开始构建卷积神经网络,介绍了该行业的所有工具以增强您的深度学习模型,并说明了*迁移学习*以及如何使用递归神经网络对文本进行分类和预测序列的工作。
第 8 章,“用于大数据的 Spark”介绍了一种新的数据处理方式:水平扩展大数据。 这意味着运行已安装 Hadoop 和 Spark 框架的计算机集群。
......
......@@ -557,7 +557,7 @@ import seaborn as sns
# 网络 X
**NetworkX** 由美国洛斯阿拉莫斯国家实验室开发,是专门用于创建,处理,分析和图形表示真实网络数据的程序包(它可以轻松地使用由一百万个节点组成的图形进行操作, 边缘)。 除了用于图形的专用数据结构和精细的可视化方法(2D 和 3D)之外,它还为用户提供了许多标准的图形度量和算法,例如最短路径,中心,组件,社区,聚类和 PageRank。 我们将在第 6 章“社交网络分析”中主要使用此软件包:
**NetworkX** 由美国洛斯阿拉莫斯国家实验室开发,是专门用于创建,处理,分析和图形表示真实网络数据的程序包(它可以轻松地使用由一百万个节点组成的图形进行操作, 边缘)。 除了用于图形的专用数据结构和精细的可视化方法(2D 和 3D)之外,它还为用户提供了许多标准的图形度量和算法,例如最短路径,中心,组件,社区,聚类和 PageRank。 我们将在第 6 章“社交网络分析”中主要使用此软件包:
* [**网站**](http://networkx.github.io/)
* **打印时的版本**:2.1
......
......@@ -106,7 +106,7 @@ In: %timeit regr.fit(X_train, y_train) Out: 544 µs ± 37.4 µs per loop
(mean ± std. dev. of 7 runs, 1000 loops each)
```
那真的很快! 结果当然不是那么好(如果您在本书前面的第 1 章“第一步”)。 但是,线性回归在性能与训练速度和简单性之间提供了很好的权衡。 现在,让我们看一下该算法的内幕。 为什么这么快却不那么准确? 答案在某种程度上是可以预期的-这是因为它是一种非常简单的线性方法。
那真的很快! 结果当然不是那么好(如果您在本书前面的第 1 章“第一步”)。 但是,线性回归在性能与训练速度和简单性之间提供了很好的权衡。 现在,让我们看一下该算法的内幕。 为什么这么快却不那么准确? 答案在某种程度上是可以预期的-这是因为它是一种非常简单的线性方法。
让我们简要地对此技术进行数学解释。 让我们将`X(i)`命名为第`i`个样本(实际上是具有数字特征的行向量),并将`Y(i)`作为目标。 线性回归的目标是找到一个良好的权重(列)向量`W`,该向量最适合于与观察向量相乘时近似目标值,即`X(i) * W ≈ Y(i)`(请注意,这是点积)。`W`应该相同,并且对每个观察结果都是最佳的。 因此,解决以下等式变得容易:
......
......@@ -119,7 +119,7 @@ PixieGateway 是一项突破性的创新,具有可以显着加快分析操作
* 第 1 部分:显示如何将美国国内航班数据加载到图形中。
* 第 2 部分:创建`USFlightsAnalysis` PixieApp,该应用程序使用户可以选择始发地和目的地机场,然后根据选定的中心性显示两个机场之间最短路径的 Mapbox 地图
* 第 3 部分:将数据浏览添加到 PixieApp,其中包括飞往选定起点机场的每家航空公司的各种统计信息
* 第 4 部分:使用在第 8 章“金融时间序列分析和预测”中学习的技术,建立用于预测航班延误的 ARIMA 模型
* 第 4 部分:使用在第 8 章“金融时间序列分析和预测”中学习的技术,建立用于预测航班延误的 ARIMA 模型
图论也是数据科学的另一个重要且不断发展的领域,本章很好地介绍了该系列文章,我希望该系列文章提供一组多样化且具有代表性的行业用例。 对于对使用大数据图形算法特别感兴趣的读者,我建议您查看 [Apache Spark GraphX](https://spark.apache.org/graphx),它使用非常简单的方法来实现许多图形算法 灵活的 API。
......@@ -132,7 +132,7 @@ PixieGateway 是一项突破性的创新,具有可以显着加快分析操作
# 要充分利用这本书
* 遵循该示例所需的大多数软件都是开源的,因此可以免费下载。 全书提供了说明,从安装包括 Jupyter笔记本服务器的 anaconda 开始。
* 在第 7 章*大数据 Twitter 情感分析*中,示例应用程序需要使用 IBM Watson 云服务,包括 NLU 和 Streams Designer。 这些服务带有免费套餐,足以按照示例进行操作。
* 在第 7 章,“大数据 Twitter 情感分析”中,示例应用程序需要使用 IBM Watson 云服务,包括 NLU 和 Streams Designer。 这些服务带有免费套餐,足以按照示例进行操作。
## 下载示例代码文件
......
......@@ -71,7 +71,7 @@ GitHub 上的 Jupyter笔记本的搜索结果
[PixieDust](https://github.com/ibm-watson-data-lab/pixiedust) 是一个开源项目,主要由三个组件组成,旨在解决本章开头所述的三个目标。
* 一个适用于 Jupyter笔记本的辅助 Python 库,它提供了简单的 API,可将各种来源的数据加载到流行的框架(如Pandas和 Apache Spark DataFrame)中,然后以交互方式可视化和浏览数据集。
* 一个适用于 Jupyter笔记本的辅助 Python 库,它提供了简单的 API,可将各种来源的数据加载到流行的框架(如Pandas和 Apache Spark `DataFrame`)中,然后以交互方式可视化和浏览数据集。
* 一个基于 Python 的简单编程模型,通过创建功能强大的仪表板 PixieApps,开发人员可以将分析结果直接“产品化”到笔记本中。 正如我们将在下一章中看到的那样,PixieApps 与传统的 **BI****商业智能**的缩写)仪表板有所不同,因为开发人员可以直接使用 HTML 和 CSS 来创建 任意复杂的布局。 此外,他们可以将对笔记本中创建的任何变量,类或函数的访问权限嵌入其业务逻辑中。
* 一个安全的微服务 Web 服务器,称为 PixieGateway,可以将 PixieApps 作为独立的 Web 应用程序运行,也可以作为可以嵌入到任何网站中的组件运行。 使用图形向导可以从 Jupyter笔记本轻松部署 PixieApps,而无需更改任何代码。 此外,PixieGateway 支持将由 PixieDust 创建的任何图表共享为可嵌入的网页,从而使数据科学家可以轻松地在笔记本电脑外部传达结果。
......@@ -495,7 +495,7 @@ display(cars)
![Display – a simple interactive API for data visualization](img/00031.jpeg)
PixieDust Charts 菜单
PixieDust 图表菜单
首次调用图表菜单时,将显示一个选项对话框,以配置一组基本配置选项,例如`X``Y`轴所使用的类型 聚合等等 为了节省您的时间,该对话框将预先填充 PixieDust 从`DataFrame`自动检查的数据模式。
......
......@@ -367,7 +367,7 @@ stream.disconnect()
## 创建 Spark 流数据框架
参考体系结构图,下一步是创建一个将`output_dir`用作源文件输入的 Spark Streaming DataFrame `tweets_sdf`。 我们可以将 Streaming`DataFrame`视为一个无界表,其中随着新数据从流到达而不断添加新行。
参考体系结构图,下一步是创建一个将`output_dir`用作源文件输入的 Spark Streaming `DataFrame tweets_sdf`。 我们可以将 Streaming`DataFrame`视为一个无界表,其中随着新数据从流到达而不断添加新行。
### 注意
......@@ -1611,7 +1611,7 @@ def process(event, state):
现在,我们使用`enriched_tweets`主题在消息中心实例中传递丰富的推文。 在下一部分中,我们将展示如何使用 Message Hub 实例作为输入源来创建 Spark Streaming `DataFrame`。
## 使用 Kafka 输入源创建 Spark Streaming DataFrame
## 使用 Kafka 输入源创建 Spark Streaming `DataFrame`
在最后的步骤中,我们创建一个 Spark Streaming `DataFrame`,它使用来自消息中心服务的`enriched_tweets` Kafka 主题的丰富推文。 为此,我们使用内置的 Spark Kafka 连接器在`subscribe`选项中指定我们要订阅的主题。 我们还需要通过从我们之前创建的全局`message_hub_creds`变量中读取`kafka.bootstrap.servers`选项来指定 Kafka 服务器列表。
......
......@@ -6,7 +6,7 @@
在本章中,我们重点介绍一种称为图的基本计算机科学数据模型,以及在它们上常用的不同类型的算法。 作为数据科学家或开发人员,熟悉图形并迅速识别它们何时提供解决特定数据问题的正确解决方案非常重要。 例如,图形非常适合基于 GPS 的应用程序(例如 Google Maps),并考虑到各种参数(包括用户是开车,步行还是乘坐公共交通工具)找到从 A 点到 B 点的最佳路线 ,或者用户想要的是最短的路线,还是无论公路总距离如何都可以最大限度地利用高速公路的路线。 这些参数中的一些也可以是实时参数,例如交通状况和天气。 使用图的另一类重要应用是社交网络,例如 Facebook 或 Twitter,其中顶点表示个人,边表示关系,例如*好友**关注*
我们将从对图形和相关图形算法的高级介绍开始本章。 然后,我们将介绍`networkx`,这是一个 Python 库,可轻松加载,操纵和可视化图形数据结构,并提供丰富的图形算法集。 我们将通过建立样本分析来继续讨论,该样本分析使用各种图形算法分析美国的航班数据,其中机场用作顶点,航班用作边线。 与往常一样,我们还将通过构建一个简单的仪表板 PixieApp 来对这些分析进行操作。 我们将通过使用在第 8 章“金融时间序列分析和预测”中学习到的时间序列技术构建历史模型来建立预测模型。
我们将从对图形和相关图形算法的高级介绍开始本章。 然后,我们将介绍`networkx`,这是一个 Python 库,可轻松加载,操纵和可视化图形数据结构,并提供丰富的图形算法集。 我们将通过建立样本分析来继续讨论,该样本分析使用各种图形算法分析美国的航班数据,其中机场用作顶点,航班用作边线。 与往常一样,我们还将通过构建一个简单的仪表板 PixieApp 来对这些分析进行操作。 我们将通过使用在第 8 章“金融时间序列分析和预测”中学习到的时间序列技术构建历史模型来建立预测模型。
# 图形简介
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册