提交 2d9c6a4b 编写于 作者: W wizardforcel

2021-03-05 21:34:40

上级 df38be01
......@@ -10,7 +10,7 @@
第 2 课,“数据清理和高级机器学习”显示了如何在 Jupyter笔记本中训练预测模型。 我们将讨论如何计划机器学习策略。 本课还说明了机器学习术语,例如监督学习,非监督学习,分类和回归。 我们将讨论使用 scikit-learn 和 pandas 预处理数据的方法。
第 3 课, “Web 抓取和交互式可视化”解释了如何剪贴网页表,然后使用交互式可视化来研究数据。 我们将首先研究 HTTP 请求的工作方式,重点是 GET 请求及其响应状态代码。 然后,我们将进入 Jupyter Notebook,并使用 Requests 库通过 Python 发出 HTTP 请求。 我们将看到 Jupyter 如何用于在笔记本中呈现 HTML 以及可以与之交互的实际网页。 发出请求后,我们将看到如何使用 BeautifulSoup 来解析 HTML 中的文本,并使用该库来刮擦表格数据。
第 3 课, “Web 抓取和交互式可视化”解释了如何剪贴网页表,然后使用交互式可视化来研究数据。 我们将首先研究 HTTP 请求的工作方式,重点是 GET 请求及其响应状态代码。 然后,我们将进入 Jupyter 笔记本,并使用 Requests 库通过 Python 发出 HTTP 请求。 我们将看到 Jupyter 如何用于在笔记本中呈现 HTML 以及可以与之交互的实际网页。 发出请求后,我们将看到如何使用 BeautifulSoup 来解析 HTML 中的文本,并使用该库来刮擦表格数据。
# 这本书需要什么
......@@ -21,7 +21,7 @@
* 硬盘:10 GB
* 互联网连接
在本书中,我们将使用 Python 和 Jupyter笔记本运行代码。 此外,还需要 Anaconda 环境才能运行 Python 和 Jupyter Notebook。 请确保在计算机上安装了以下软件:
在本书中,我们将使用 Python 和 Jupyter笔记本运行代码。 此外,还需要 Anaconda 环境才能运行 Python 和 Jupyter 笔记本。 请确保在计算机上安装了以下软件:
* Python 3.5+
* 水蟒 4.3+
......@@ -76,7 +76,7 @@ Anaconda 安装随附的 Python 库:
conda install seaborn
```
3. 要从 Anaconda Prompt 打开 Jupyter Notebook,请使用以下命令:
3. 要从 Anaconda Prompt 打开 Jupyter 笔记本,请使用以下命令:
```py
jupyter notebook
......@@ -90,7 +90,7 @@ Anaconda 安装随附的 Python 库:
在本书中,您将找到许多可以区分不同类型信息的文本样式。 以下是这些样式的一些示例,并解释了其含义。
文本中的代码字和 Python 语言关键字如下所示:“使用新创建的空白 Notebook,单击顶部的单元格并键入`print('hello world')`
文本中的代码字和 Python 语言关键字如下所示:“使用新创建的空白笔记本,单击顶部的单元格并键入`print('hello world')`
文件夹名称,文件名,文件扩展名,路径名,包括文本中的文件名,如下所示:“头文件`boost/asio.hpp`包含使用 Asio 库所需的大多数类型和功能”。
......
......@@ -4,7 +4,7 @@ Jupyter笔记本是,是使用 Python 的数据科学家最重要的工具之
其他类似的平台(例如 RStudio 或 Spyder)为用户提供了多个窗口,这些窗口促进了繁重的任务,例如在周围复制和粘贴代码以及重新运行已经执行的代码。 这些工具还倾向于涉及**读取求值提示循环****REPL**),其中代码在已节省内存的终端会话中运行。 这种开发环境不利于可重复性,也不适合开发。 Jupyter笔记本通过为用户提供一个在其中执行代码段并内联显示输出的窗口,解决了所有这些问题。 这使用户可以有效地开发代码,并允许他们回顾以前的工作以供参考,甚至进行更改。
我们将通过确切地解释什么是 Jupyter笔记本开始本课,并继续讨论为什么它们在数据科学家中如此受欢迎。 然后,我们将一起打开一个 Notebook,并进行一些练习以了解如何使用该平台。 最后,我们将深入研究第一个分析并对“基本功能和特性”进行探索性分析。
我们将通过确切地解释什么是 Jupyter笔记本开始本课,并继续讨论为什么它们在数据科学家中如此受欢迎。 然后,我们将一起打开一个笔记本,并进行一些练习以了解如何使用该平台。 最后,我们将深入研究第一个分析并对“基本功能和特性”进行探索性分析。
# 课程目标
......@@ -97,7 +97,7 @@ Jupyter笔记本是在本地运行的 Web 应用程序,其中包含实时代
虚拟环境是在同一台计算机上管理多个项目的绝佳工具。 每个虚拟环境可能包含不同版本的 Python 和外部库。 Python 具有内置的虚拟环境。 但是,Conda 虚拟环境与 Jupyter笔记本集成得更好,并拥有其他出色的功能。 [该文档位于](https://conda.io/docs/user-guide/tasks/manage-environments.html)。
9. 使用新创建的空白 Notebook,在顶部的单元格中单击,然后键入`print('hello world')`或写入屏幕的任何其他代码段。 通过单击单元格并按`Shift + Enter`或在“单元格”菜单中选择“运行单元格”来执行它。
9. 使用新创建的空白笔记本,在顶部的单元格中单击,然后键入`print('hello world')`或写入屏幕的任何其他代码段。 通过单击单元格并按`Shift + Enter`或在“单元格”菜单中选择“运行单元格”来执行它。
单元运行时,代码的任何`stdout`或`stderr`输出将显示在下方。 此外,写在最后一行的对象的字符串表示形式也会显示在中。 这非常方便,尤其是对于显示表格而言,但有时我们不希望显示最终对象。 在这种情况下,可以在行的末尾添加分号(`;`)以抑制显示。
......@@ -150,7 +150,7 @@ Jupyter笔记本是在本地运行的 Web 应用程序,其中包含实时代
### 注意
如果您打算花费大量时间使用 Jupyter Notebook,则值得学习键盘快捷键。 这将大大加快您的工作流程。 要学习的特别有用的命令是用于手动添加新单元格并将单元格从代码转换为 Markdown 格式的快捷方式。 单击**帮助**菜单中的**键盘快捷方式**,以了解操作方法。
如果您打算花费大量时间使用 Jupyter 笔记本,则值得学习键盘快捷键。 这将大大加快您的工作流程。 要学习的特别有用的命令是用于手动添加新单元格并将单元格从代码转换为 Markdown 格式的快捷方式。 单击**帮助**菜单中的**键盘快捷方式**,以了解操作方法。
## 子主题 C:Jupyter 功能
......@@ -307,7 +307,7 @@ scikit_learn==0.19.0
### 导入外部库并设置绘图环境
1. 打开`lesson 1` Jupyter Notebook,然后滚动到`Subtopic D: Python Libraries`部分。
1. 打开`lesson 1` Jupyter 笔记本,然后滚动到`Subtopic D: Python Libraries`部分。
就像常规 Python 脚本一样,可以随时将库导入到笔记本中。 最佳做法是将您使用的大多数软件包放在文件顶部。 有时在笔记本中途加载东西是有意义的,这完全可以。
......
......@@ -1002,7 +1002,7 @@ Bokeh 是一个用于 Python 的交互式可视化库。 其目标是提供与 D
在本课程中,我们抓取了网页表,然后使用交互式可视化工具来研究数据。
我们首先查看 HTTP 请求的工作方式,重点关注 GET 请求及其响应状态代码。 然后,我们进入 Jupyter Notebook,并使用 Requests 库通过 Python 发出 HTTP 请求。 我们了解了如何使用 Jupyter 以及可与之交互的实际网页在笔记本中呈现 HTML。 发出请求后,我们看到了如何使用 BeautifulSoup 来解析 HTML 中的文本,并使用该库来刮擦表格数据。
我们首先查看 HTTP 请求的工作方式,重点关注 GET 请求及其响应状态代码。 然后,我们进入 Jupyter 笔记本,并使用 Requests 库通过 Python 发出 HTTP 请求。 我们了解了如何使用 Jupyter 以及可与之交互的实际网页在笔记本中呈现 HTML。 发出请求后,我们看到了如何使用 BeautifulSoup 来解析 HTML 中的文本,并使用该库来刮擦表格数据。
抓取两个数据表后,我们将它们存储在 pandas DataFrames 中。 第一个表包含每个国家的中央银行利率,第二个表包含人口。 我们将它们组合到一个表中,然后用于创建交互式可视化。
......
......@@ -6,7 +6,7 @@
* 安装有思想的顶篷
* 安装 Python 库
* 如何使用 IPython / Jupyter Notebook
* 如何使用 IPython / Jupyter 笔记本
* 如何使用,阅读和运行本书的代码文件
* 然后,我们将深入研究速成课程,以了解 Python 代码:
* Python 基础-第 1 部分
......@@ -23,7 +23,7 @@
让我们深入研究并获取安装所需的内容,以便在您的桌面上使用数据科学实际开发 Python 代码。 我将指导您安装名为 Enthought Canopy 的软件包,该软件包同时包含开发环境和您需要预安装的所有 Python 软件包。 它使生活变得非常轻松,但是,如果您已经了解 Python,那么您的 PC 上可能已经有一个现有的 Python 环境,并且如果您想继续使用它,也许可以。
最重要的是,您的 Python 环境具有 Python 3.5 或更高版本,它支持 Jupyter Notebooks(因为这是我们将在本课程中使用的语言),并且您已在本书中安装了所需的关键软件包。 环境。 我将通过几个简单的步骤来确切说明如何实现完整安装-这将非常容易。
最重要的是,您的 Python 环境具有 Python 3.5 或更高版本,它支持 Jupyter 笔记本(因为这是我们将在本课程中使用的语言),并且您已在本书中安装了所需的关键软件包。 环境。 我将通过几个简单的步骤来确切说明如何实现完整安装-这将非常容易。
让我们首先概述那些关键软件包,其中大部分 Canopy 都会自动为我们安装。 Canopy 将为我们安装 Python 3.5,以及我们需要的其他一些软件包,包括:`scikit_learn``xlrd``statsmodels`。 我们需要手动使用`pip`命令来安装名为`pydot2plus`的软件包。 就是这样-Canopy 非常容易!
......@@ -68,7 +68,7 @@
# 进行安装测试
1. 现在,让您的安装进行测试运行。 首先要做的是实际上完全关闭 Canopy 窗口! 这是因为我们实际上不会在此 Canopy 编辑器中进行编辑和使用代码。 取而代之的是,我们将使用称为 IPython笔记本的东西,现在也称为 Jupyter Notebook
1. 现在,让您的安装进行测试运行。 首先要做的是实际上完全关闭 Canopy 窗口! 这是因为我们实际上不会在此 Canopy 编辑器中进行编辑和使用代码。 取而代之的是,我们将使用称为 IPython笔记本的东西,现在也称为 Jupyter 笔记本
2. 让我告诉你它是如何工作的。 如果您现在在操作系统中打开一个窗口,以查看下载的随附书文件,如本书序言中所述。 您应该为本书下载的`.ipynb`代码文件集看起来像这样:
![](img/349fff7b-40d9-4e47-887d-33d57016a416.png)
......@@ -91,7 +91,7 @@
# 使用和理解 IPython(Jupyter)笔记本
恭喜您安装成功! 现在让我们使用 Jupyter Notebooks(也称为 IPython Notebook)进行探索。 如今,更现代的名称是 Jupyter Notebook,但是很多人仍将其称为 IPython Notebook,因此,我认为这些名称对于工作中的开发人员而言可以互换。 我也确实找到了名称“ IPython Notebooks”,它可以帮助我记住笔记本文件的文件名后缀,即`.ipynb`,因为您在本书中会对此非常了解!
恭喜您安装成功! 现在让我们使用 Jupyter 笔记本(也称为 IPython Notebook)进行探索。 如今,更现代的名称是 Jupyter 笔记本,但是很多人仍将其称为 IPython笔记本,因此,我认为这些名称对于工作中的开发人员而言可以互换。 我也确实找到了名称“ IPython Notebooks”,它可以帮助我记住笔记本文件的文件名后缀,即`.ipynb`,因为您在本书中会对此非常了解!
好的,现在让我们再次从上而下-我们对 IPython / Jupyter笔记本的首次探索。 如果您尚未这样做,请导航到`DataScience`文件夹,我们在其中下载了本书的所有材料。 对我来说,这是`E:DataScience`,如果您在前面的安装部分中没有这样做,请双击并打开`Outliers.ipynb`文件。
......@@ -859,7 +859,7 @@ while (x < 10):
![](img/3f4a7f96-ead8-4dfa-8f1c-da8eddf25b03.png)
这样便有了运行 Python 代码的三种方式:IPython / Jupyter Notebook,我们将在整本书中使用它,只是因为它是一个很好的学习工具,您还可以将脚本作为独立的脚本文件运行,也可以执行 交互式命令提示符中的 Python 代码。
这样便有了运行 Python 代码的三种方式:IPython / Jupyter 笔记本,我们将在整本书中使用它,只是因为它是一个很好的学习工具,您还可以将脚本作为独立的脚本文件运行,也可以执行 交互式命令提示符中的 Python 代码。
因此,您拥有了它,并且这里有三种不同的方式来运行 Python 代码以及在生产中进行实验和运行。 所以记住这一点。 在本书的其余部分中,我们将一直使用笔记本电脑,但是,到时候,您还有其他选择。
......
......@@ -452,7 +452,7 @@ S² = (11.56 + 0.16 + 0.36 + 0.16 + 12.96) / 4 = 6.3
# 分析直方图上的标准偏差和方差
让我们在这里编写一些代码,并使用一些标准偏差和方差。 因此,如果您拉起`StdDevVariance.ipynb`文件 IPython Notebook,然后在这里跟随我。 请这样做,因为最后有一项活动我想让您尝试。 我们将在此处执行的操作与前面的示例一样,因此从以下代码开始:
让我们在这里编写一些代码,并使用一些标准偏差和方差。 因此,如果您拉起`StdDevVariance.ipynb`文件 IPython笔记本,然后在这里跟随我。 请这样做,因为最后有一项活动我想让您尝试。 我们将在此处执行的操作与前面的示例一样,因此从以下代码开始:
```py
%matplotlib inline
......@@ -797,7 +797,7 @@ Out[5]:-0.41810340026619164
如果您想了解这些断点在数据集中的位置,则百分位函数是一种简单的计算方法。 如果这是代表收入分配的数据集,我们可以调用`np.percentile(vals, 99)`并找出第 99 个百分位数。 您可以弄清楚人们一直在谈论的那些一心一意的人到底是谁,如果您是其中之一。
好吧,现在弄脏你的手。 我希望您能处理这些数据。 这是一个 IPython Notebook,出于某种原因,例如,您可以将其弄乱并与代码弄混,尝试使用不同的标准偏差值,查看其对数据形状的影响以及这些百分位数最终位于何处。 尝试使用较小的数据集大小,并在事物中添加更多随机变化。 只是对它感到满意,对其进行操作,然后发现您实际上可以做到这一点并编写一些有效的真实代码。
好吧,现在弄脏你的手。 我希望您能处理这些数据。 这是一个 IPython笔记本,出于某种原因,例如,您可以将其弄乱并与代码弄混,尝试使用不同的标准偏差值,查看其对数据形状的影响以及这些百分位数最终位于何处。 尝试使用较小的数据集大小,并在事物中添加更多随机变化。 只是对它感到满意,对其进行操作,然后发现您实际上可以做到这一点并编写一些有效的真实代码。
# 片刻
......
......@@ -16,7 +16,7 @@
# 本书涵盖的内容
第 1 章,“第一步”,介绍了 Jupyter Notebook,并演示了如何访问教程中运行的数据。
第 1 章,“第一步”,介绍了 Jupyter笔记本,并演示了如何访问教程中运行的数据。
第 2 章和“数据整理”介绍了所有关键的数据操作和转换技术,重点介绍了进行谋杀活动的最佳实践。
......
......@@ -897,7 +897,7 @@ In: <the code you have to enter> Out: <the output you should get>
通常,您只需要在单元格中的`In:`之后键入代码并运行即可。 然后,您可以将您的输出与我们可以使用`Out:`提供的输出进行比较,然后将我们在测试代码时在计算机上实际获得的输出进行比较。
如果您正在使用`conda``env`环境,则可能会在 Jupyter 界面中找不到新的环境。 如果发生这种情况,只需从命令行发出`conda install ipykernel`并重新启动 Jupyter Notebook。 您的内核应出现在**新建**按钮下的笔记本选项中。
如果您正在使用`conda``env`环境,则可能会在 Jupyter 界面中找不到新的环境。 如果发生这种情况,只需从命令行发出`conda install ipykernel`并重新启动 Jupyter 笔记本。 您的内核应出现在**新建**按钮下的笔记本选项中。
# Jupyter 魔术命令
......@@ -1018,7 +1018,7 @@ Jupyter笔记本的主要目标是讲故事。 讲故事对于数据科学至关
Jupyter 来了; 它实际上执行了所有上述操作:
1. 要启动 Jupyter Notebook,请运行以下命令:
1. 要启动 Jupyter笔记本,请运行以下命令:
```py
$> jupyter notebook
......@@ -1425,6 +1425,6 @@ In: %timeit X,y = datasets.make_classification(n_samples=10**6,
# 概括
在本介绍性章节中,我们安装了本书中将使用的所有内容,从 Python 包到示例。 它们既可以直接安装也可以通过科学分发安装。 我们还介绍了 Jupyter Notebooks,并在教程中演示了如何访问运行的数据。
在本介绍性章节中,我们安装了本书中将使用的所有内容,从 Python 包到示例。 它们既可以直接安装也可以通过科学分发安装。 我们还介绍了 Jupyter 笔记本,并在教程中演示了如何访问运行的数据。
在下一章“数据整理”中,我们将概述数据科学管道,并探索所有关键工具来处理和准备数据,然后再应用任何学习算法并设置假设实验时间表。
\ No newline at end of file
......@@ -150,7 +150,7 @@ avg / total 0.83 0.82 0.82 102
根据`LogisticRegression`分类器的优化过程,此命令的输出可以在您的计算机上更改(未设置种子以提高结果的可复制性)。
`precision``recall`值超过`80`百分比。 对于一个非常简单的方法来说,这已经是一个很好的结果。 训练速度也令人印象深刻。 感谢 Jupyter Notebook,我们可以在性能和速度方面将算法与更高级的分类器进行比较:
`precision``recall`值超过`80`百分比。 对于一个非常简单的方法来说,这已经是一个很好的结果。 训练速度也令人印象深刻。 感谢 Jupyter笔记本,我们可以在性能和速度方面将算法与更高级的分类器进行比较:
```py
In: %timeit clf.fit(X_train, y_train)
......
......@@ -36,7 +36,7 @@ In: import numpy as np
这样,我们始终可以将[MATLAB 样的模块`pyplot`]称为`plt`,并在`mpl`的帮助下访问完整的`matplotlib`功能集。
如果您正在使用 Jupyter Notebook(或 Jupyter Lab),则可以使用以下行魔术:`%matplotlib`内联。 在笔记本的单元格中写入命令并运行命令后,您可以直接在笔记本本身上绘制绘图,而不必在单独的窗口中显示图形(默认情况下,`matplotlib`的 GUI 后端是`TkAgg`后端)。 如果您更喜欢 Qt( [www.qt.io](https://www.qt.io/) )等通常随 Python 科学发行版一起分发的后端,则只需运行以下行魔术:`%matplotlib` Qt。
如果您正在使用 Jupyter 笔记本(或 Jupyter Lab),则可以使用以下行魔术:`%matplotlib`内联。 在笔记本的单元格中写入命令并运行命令后,您可以直接在笔记本本身上绘制绘图,而不必在单独的窗口中显示图形(默认情况下,`matplotlib`的 GUI 后端是`TkAgg`后端)。 如果您更喜欢 Qt( [www.qt.io](https://www.qt.io/) )等通常随 Python 科学发行版一起分发的后端,则只需运行以下行魔术:`%matplotlib` Qt。
# 尝试曲线图
......@@ -928,7 +928,7 @@ In: from sklearn.ensemble.partial_dependence import
在所有这些情况下,最好通过 HTTP 进行服务即预测的服务,或者一般来说,将任何**机器学习即服务****ML-AAS**)。
Bottle 是一个 Python 网络框架,是 HTTP 上微型应用程序的起点。 这是一个非常简单的 Python 库,提供了创建 Web 应用程序所需的基本对象和功能。 而且,它可以与 Python 中可用的所有其他库配对。 在进入即服务预测之前,让我们看看如何使用 Bottle 构建基本的`Hello World`程序。 请注意,以下清单作为脚本用于 Python REPL,而不用于 Jupyter Notebook
Bottle 是一个 Python 网络框架,是 HTTP 上微型应用程序的起点。 这是一个非常简单的 Python 库,提供了创建 Web 应用程序所需的基本对象和功能。 而且,它可以与 Python 中可用的所有其他库配对。 在进入即服务预测之前,让我们看看如何使用 Bottle 构建基本的`Hello World`程序。 请注意,以下清单作为脚本用于 Python REPL,而不用于 Jupyter 笔记本
```py
# File: bottle1.py from bottle import route, run, template port = 9099 @route('/personal/<name>') def homepage(name):
......
......@@ -453,7 +453,7 @@ Out: [('the', 29998)]
# 只读广播变量
广播变量是驱动程序节点共享的变量; 也就是说,该节点在我们的配置中运行 IPython Notebook,并且所有节点都在集群中。 这是一个只读变量,因为该变量由一个节点广播,并且如果另一个节点对其进行更改,则永远不会回读。
广播变量是驱动程序节点共享的变量; 也就是说,该节点在我们的配置中运行 IPython笔记本,并且所有节点都在集群中。 这是一个只读变量,因为该变量由一个节点广播,并且如果另一个节点对其进行更改,则永远不会回读。
现在,让我们在一个简单的示例中查看其工作方式:我们希望对仅包含性别信息作为字符串的数据集进行一次热编码。 虚拟数据集仅包含一个特征,该特征可以是男性`M`,女性`F`或未知`U`(如果信息丢失)。 具体来说,我们希望所有节点都使用定义的“一键编码”,如以下词典中列出:
......
......@@ -328,7 +328,7 @@ jupyter nbconvert <pathtonotebook.ipynb> --to slides
为了改善软件开发生命周期并缩短实现价值的时间,他们需要开始使用与数据科学家相同的工具,编程语言和框架,包括 Python 及其拥有丰富的库和笔记本生态系统的 Python,这些已成为非常重要的数据科学 工具。 承认开发人员必须与中间的数据科学家会面,并加快了解数据科学背后的理论和概念。 根据我的经验,我强烈建议使用 **MOOC****大规模开放在线课程**的缩写),例如 [Coursera](https://www.coursera.org)[EdX](http://www.edx.org),它们为每个级别提供了各种各样的课程。
但是,很广泛地使用了 Notebook,很显然,它们虽然功能强大,但主要是为数据科学家设计的,这给开发人员带来了陡峭的学习曲线。 他们还缺乏对开发人员至关重要的应用程序开发功能。 正如我们在“Twitter Hashtags 项目的情感分析”中所看到的那样,基于笔记本中创建的分析来构建应用程序或仪表板可能非常困难,并且需要难以实现的架构,并且 在基础架构上占用了大量资源。
但是,很广泛地使用了笔记本,很显然,它们虽然功能强大,但主要是为数据科学家设计的,这给开发人员带来了陡峭的学习曲线。 他们还缺乏对开发人员至关重要的应用程序开发功能。 正如我们在“Twitter Hashtags 项目的情感分析”中所看到的那样,基于笔记本中创建的分析来构建应用程序或仪表板可能非常困难,并且需要难以实现的架构,并且 在基础架构上占用了大量资源。
为了解决这些空白,我决定创建 [PixieDust](https://github.com/ibm-watson-data-lab/pixiedust) 库并将其开源。 正如我们将在下一章中看到的那样,PixieDust 的主要目标是通过提供简单的 API 来加载和降低新用户(无论是数据科学家还是开发人员)的*入门成本*。 可视化数据。 PixieDust 还为开发人员框架提供了 API,可轻松构建可直接在笔记本中运行并也可作为 Web 应用程序部署的应用程序,工具和仪表板。
......
......@@ -6,7 +6,7 @@
在上一章中,我根据实际经验给出了开发人员对数据科学的看法,并讨论了在企业中成功进行部署所需的三个战略支柱:数据,服务和工具。 我还讨论了这样一个想法,即数据科学不仅是数据科学家的唯一权限,而且是对开发人员具有特殊作用的团队运动。
在本章中,我将介绍一个基于 Jupyter Notebooks,Python 和 PixieDust 开源库的解决方案,该解决方案着重于三个简单的目标:
在本章中,我将介绍一个基于 Jupyter 笔记本,Python 和 PixieDust 开源库的解决方案,该解决方案着重于三个简单的目标:
* 通过降低非数据科学家的进入门槛使数据科学民主化
* 开发人员与数据科学家之间的协作不断增强
......@@ -53,7 +53,7 @@ Python 在网络上也变得无处不在,它通过 Web 开发框架为众多
Python 显然在数据科学领域有着光明的前途,尤其是与诸如 Jupyter笔记本之类的强大工具结合使用时,Python 在数据科学家社区中已变得非常流行。 笔记本电脑的价值主张是,它们非常易于创建,并且非常适合快速运行的实验。 此外,笔记本电脑还支持多种高保真序列化格式,可以捕获指令,代码和结果,然后可以很容易地与团队中的其他数据科学家共享这些代码,也可以将其作为开源供所有人使用。 例如,我们看到 Jupyter笔记本在 GitHub 上激增,数量超过 250 万并且还在增加。
以下屏幕快照显示了 GitHub 搜索任何扩展名为`.ipynb,`的文件的结果,该文件是序列化 Jupyter Notebooks(JSON 格式)的最流行格式:
以下屏幕快照显示了 GitHub 搜索任何扩展名为`.ipynb,`的文件的结果,该文件是序列化 Jupyter 笔记本(JSON 格式)的最流行格式:
![Why choose Python?](img/00014.jpeg)
......@@ -149,7 +149,7 @@ c.NotebookApp.open_browser = False
### 注意
**注意**:感叹号语法特定于 Jupyter Notebook,它表示其余命令将作为系统命令执行。 例如,您可以使用`!ls`列出当前工作目录下的所有文件和目录。
**注意**:感叹号语法特定于 Jupyter笔记本,它表示其余命令将作为系统命令执行。 例如,您可以使用`!ls`列出当前工作目录下的所有文件和目录。
2. 使用**单元格 | 运行单元格**菜单或工具栏上的**运行**图标。 您还可以使用以下键盘快捷键来运行单元格:
......@@ -637,7 +637,7 @@ Mapbox 图表的“选项”对话框
数据科学与工程学之间的交接
这种移交模式的问题在于它不利于快速迭代。 数据层中的任何更改都需要与软件工程团队同步,以避免破坏应用程序。 PixieApps 背后的想法是在构建应用程序的同时尽可能靠近数据科学环境,在我们的示例中为 Jupyter Notebook。 使用这种方法,可以直接从运行在 Jupyter笔记本中的 PixieApp 调用分析功能,从而使数据科学家和开发人员可以轻松地进行协作并反复进行快速改进。
这种移交模式的问题在于它不利于快速迭代。 数据层中的任何更改都需要与软件工程团队同步,以避免破坏应用程序。 PixieApps 背后的想法是在构建应用程序的同时尽可能靠近数据科学环境,在我们的示例中为 Jupyter 笔记本。 使用这种方法,可以直接从运行在 Jupyter笔记本中的 PixieApp 调用分析功能,从而使数据科学家和开发人员可以轻松地进行协作并反复进行快速改进。
PixieApp 定义了一个简单的编程模型,用于构建单页应用程序,可直接访问 IPython笔记本内核(这是运行笔记本代码的 Python 后端进程)。 本质上,PixieApp 是一个 Python 类,它封装了表示形式和业务逻辑。 该演示文稿由一组称为路由的特殊方法组成,这些方法返回任意 HTML 片段。 每个 PixieApp 都有一个默认路由,该路由返回起始页面的 HTML 片段。 开发人员可以使用自定义 HTML 属性来调用其他路由,并动态更新页面的全部或部分。 例如,一条路线可能会调用从笔记本内部创建的机器学习算法或使用 PixieDust 显示框架生成图表。
......
......@@ -1079,6 +1079,6 @@ ConsumerApp.run()
我们还通过展示如何构建`Github Tracking`示例应用程序(包括详细的代码示例)来说明 PixieApp 的概念和技术。 最佳做法和更高级的 PixieApp 概念将在第 5 章,“最佳做法和高级 PixieDust 概念”中进行介绍,包括事件,流和调试。
到目前为止,您应该希望对 Jupyter Notebooks,PixieDust 和 PixieApps 如何使数据科学家和开发人员能够通过单一工具(例如 Jupyter Notebook)进行协作来帮助弥合数据科学家和开发人员之间的差距有所了解。
到目前为止,您应该希望对 Jupyter 笔记本,PixieDust 和 PixieApps 如何使数据科学家和开发人员能够通过单一工具(例如 Jupyter 笔记本)进行协作来帮助弥合数据科学家和开发人员之间的差距有所了解。
在下一章中,我们将展示如何从笔记本中释放 PixieApp 并使用 PixieGateway 微服务服务器将其发布为 Web 应用程序。
\ No newline at end of file
......@@ -1477,7 +1477,7 @@ def on_data(self, data):
## 通过 Streaming Analytics 服务丰富推文数据
对于这一步,我们将需要使用 Watson Studio,它是一个基于云的集成 IDE,可提供各种用于处理数据的工具,包括机器学习/深度学习模型,Jupyter Notebook,数据流等。 Watson Studio 是 IBM Cloud 的配套工具,可通过[这个页面](https://datascience.ibm.com)访问,因此无需额外注册。
对于这一步,我们将需要使用 Watson Studio,它是一个基于云的集成 IDE,可提供各种用于处理数据的工具,包括机器学习/深度学习模型,Jupyter笔记本,数据流等。 Watson Studio 是 IBM Cloud 的配套工具,可通过[这个页面](https://datascience.ibm.com)访问,因此无需额外注册。
登录到 Watson Studio 后,我们将创建一个新项目,我们将其称为`Thoughtful Data Science`。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册