Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
apachecn-ds-zh
提交
0cf63d0d
A
apachecn-ds-zh
项目概览
OpenDocCN
/
apachecn-ds-zh
10 个月 前同步成功
通知
1
Star
287
Fork
69
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
A
apachecn-ds-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
0cf63d0d
编写于
3月 11, 2021
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2021-03-11 23:21:04
上级
18a2a138
变更
13
隐藏空白更改
内联
并排
Showing
13 changed file
with
22 addition
and
22 deletion
+22
-22
new/master-py-ds/04.md
new/master-py-ds/04.md
+1
-1
new/py-ds-essentials/1.md
new/py-ds-essentials/1.md
+1
-1
new/py-ds-essentials/2.md
new/py-ds-essentials/2.md
+1
-1
new/py-ds-essentials/5.md
new/py-ds-essentials/5.md
+1
-1
new/thoughtful-ds/01.md
new/thoughtful-ds/01.md
+1
-1
new/thoughtful-ds/02.md
new/thoughtful-ds/02.md
+1
-1
new/thoughtful-ds/03.md
new/thoughtful-ds/03.md
+1
-1
new/thoughtful-ds/04.md
new/thoughtful-ds/04.md
+1
-1
new/thoughtful-ds/05.md
new/thoughtful-ds/05.md
+7
-7
new/thoughtful-ds/06.md
new/thoughtful-ds/06.md
+1
-1
new/thoughtful-ds/07.md
new/thoughtful-ds/07.md
+2
-2
new/thoughtful-ds/08.md
new/thoughtful-ds/08.md
+2
-2
new/thoughtful-ds/11.md
new/thoughtful-ds/11.md
+2
-2
未找到文件。
new/master-py-ds/04.md
浏览文件 @
0cf63d0d
...
...
@@ -477,7 +477,7 @@ Matplotlib 库中的样式包使更改绘图图的样式更加容易。 更改
![
Area plots
](
img/B03450_04_21.jpg
)
要删除区域图的
堆
栈,可以使用以下代码:
要删除区域图的栈,可以使用以下代码:
```
py
>>>
df
.
plot
(
kind
=
'area'
,
stacked
=
False
);
...
...
new/py-ds-essentials/1.md
浏览文件 @
0cf63d0d
...
...
@@ -746,7 +746,7 @@ $> pip install git+git://github.com/fchollet/keras.git
# 介绍 Jupyter
该项目最初称为 IPython,由 Fernando Perez 于 2001 年作为一个免费项目启动。 通过他的工作,作者打算解决 Python
堆
栈中的不足问题,并向公众提供用于数据调查的用户编程接口,该接口可以轻松地在数据发现和软件过程中结合科学方法(主要是实验和交互式发现) 发展。
该项目最初称为 IPython,由 Fernando Perez 于 2001 年作为一个免费项目启动。 通过他的工作,作者打算解决 Python 栈中的不足问题,并向公众提供用于数据调查的用户编程接口,该接口可以轻松地在数据发现和软件过程中结合科学方法(主要是实验和交互式发现) 发展。
科学的方法意味着可以以可重复的方式对不同的假设进行快速实验(数据科学中的数据探索和分析也是如此),当使用此界面时,在您的代码编写过程中,您将能够更自然地实现探索性,迭代性,反复试验和错误研究策略。
...
...
new/py-ds-essentials/2.md
浏览文件 @
0cf63d0d
...
...
@@ -366,7 +366,7 @@ In: import numpy as np
到目前为止,我们仅处理 CSV 文件。 为了加载 MS Excel,HDFS,SQL,JSON,HTML 和 Stata 数据集,Pandas 包提供了类似的功能(和功能)。 由于这些格式中的大多数格式在数据科学中并未常规使用,因此大多数人只能了解如何加载和处理每种格式,您可以参考
[
Pandas网站上的可用文档
](
http://pandas.pydata.org/pandas-docs/version/0.16/io.html
)
。 在这里,我们将仅演示如何有效地使用磁盘空间以快速有效的方式存储和检索机器学习算法信息的要点。 在这种情况下,您可以利用
[
SQLite 数据库
](
https://www.sqlite.org/index.html
)
来访问特定的信息子集并将其转换为 Pandas
`DataFrame`
。 如果您不需要对数据进行特定的选择或过滤,但是唯一的问题是从 CSV 文件读取数据非常耗时,并且每次都需要很多工作(例如,设置正确的变量类型和名称),则可以使用
[
HDF5 数据结构
](
https://support.hdfgroup.org/HDF5/whatishdf5.html
)
来加快保存和加载数据的速度。
在第一个示例中,我们将使用 SQLite 和 SQL 语言存储一些数据并检索其过滤后的版本。 与其他数据库相比,SQLite 具有许多优点:它是独立的(所有数据都将存储在一个文件中),无服务器(Python 将提供存储,操作和访问数据的接口)且速度很快。 导入
`sqlite3`
程序包(它是 Python
堆
栈的一部分,因此无论如何都不需要安装)后,您定义了两个查询:一个删除同名的先前数据表,另一个创建一个新表,它能够保留日期,城市,温度和目的地数据(并且您使用整数,浮点数和
`varchar`
类型,它们对应于
`int`
,
`float`
和
`str`
)。
在第一个示例中,我们将使用 SQLite 和 SQL 语言存储一些数据并检索其过滤后的版本。 与其他数据库相比,SQLite 具有许多优点:它是独立的(所有数据都将存储在一个文件中),无服务器(Python 将提供存储,操作和访问数据的接口)且速度很快。 导入
`sqlite3`
程序包(它是 Python 栈的一部分,因此无论如何都不需要安装)后,您定义了两个查询:一个删除同名的先前数据表,另一个创建一个新表,它能够保留日期,城市,温度和目的地数据(并且您使用整数,浮点数和
`varchar`
类型,它们对应于
`int`
,
`float`
和
`str`
)。
打开数据库(此时已创建,如果尚未在磁盘上创建的数据库)之后,执行两个查询,然后提交更改(通过提交,
[
实际上是在一个批量中开始执行所有先前的数据库命令
](
https://www.sqlite.org/atomiccommit.html
)
):
...
...
new/py-ds-essentials/5.md
浏览文件 @
0cf63d0d
...
...
@@ -450,7 +450,7 @@ In: from pandas.tools.plotting import parallel_coordinates
# Seaborn 介绍
Seaborn 由 Michael Waskom 创建并托管在
[
PyData 网站
](
http://seaborn.pydata.org/
)
上,是一个将底层 Matplotlib 与整个 pyData
堆
栈包装在一起的库,允许集成图表和来自 NumPy 和 Pandas 的数据结构,以及 SciPy 和 StatModels 的统计例程。 借助内置主题以及专为揭示数据模式而设计的调色板,所有这些工作都特别注重美学。
Seaborn 由 Michael Waskom 创建并托管在
[
PyData 网站
](
http://seaborn.pydata.org/
)
上,是一个将底层 Matplotlib 与整个 pyData 栈包装在一起的库,允许集成图表和来自 NumPy 和 Pandas 的数据结构,以及 SciPy 和 StatModels 的统计例程。 借助内置主题以及专为揭示数据模式而设计的调色板,所有这些工作都特别注重美学。
如果您当前尚未在系统上安装 Seaborn(例如,Anaconda 发行版默认提供它),则可以通过
`pip`
和
`conda`
轻松获得它(提醒您
`conda`
版本可能落后于直接从 PyPI(Python 包索引)获取的
`pip`
版本)。
...
...
new/thoughtful-ds/01.md
浏览文件 @
0cf63d0d
...
...
@@ -89,7 +89,7 @@
早期,我们想建立一个数据管道,通过对包含特定主题标签的推文进行情感分析,从 Twitter 提取见解,并将结果部署到实时仪表板中。 该应用是我们的理想起点,因为数据科学分析不太复杂,并且该应用涵盖了现实生活场景的许多方面:
*
高容量,高吞吐量的流数据
*
使用
情感分析 NLP
进行数据丰富
*
使用
NLP 情感分析
进行数据丰富
*
基本数据汇总
*
数据可视化
*
部署到实时仪表板
...
...
new/thoughtful-ds/02.md
浏览文件 @
0cf63d0d
...
...
@@ -485,7 +485,7 @@ display(cars)
**注意**:仅当您已部署 PixieGateway 时,才可以使用此按钮,我们将在第四章,“将 PixieApps 部署到使用 Web 的 PixieGateway 服务器”中进行详细讨论。
*
在可视化的右侧有一组上下文选项。
*
有
主要的可视化区域。
*
存在
主要的可视化区域。
![
Display – a simple interactive API for data visualization
](
img/00030.jpeg
)
...
...
new/thoughtful-ds/03.md
浏览文件 @
0cf63d0d
...
...
@@ -734,7 +734,7 @@ def do_analyse_type(self, analyse_type):
[
您可以在此处找到代码文件
](
https://github.com/DTAIEB/Thoughtful-Data-Science/blob/master/chapter%203/sampleCode12.py
)
。
路由有一个名为
`analyse_type,`
的参数,我们将其用作在
`analyses`
数组中查找
`load`
函数的键(注意,我再次使用列表推导来快速进行搜索)。 然后,我们调用传递回购所有者和名称的此函数来获取
`vis_info`
JSON 有效负载,并将 Pandas
`DataFrame`
存储到名为
`pdf`
的类变量中。 然后,返回的 HTML 片段将
`pdf`
用作
`pd_entity`
值,将
`vis_info["chart_options"]`
用作
`pd_optio`
`ns`
。 在这里,我使用
[
`tojson` Jinja2 过滤器
](
http://jinja.pocoo.org/docs/templates/#list-of-builtin-filters
)
来确保在生成的 HTML 中正确进行了转义 。 即使已在
堆
栈上声明了
`vis_info`
变量,也允许我使用它,因为我为函数使用了
`@templateArgs`
装饰器。
路由有一个名为
`analyse_type,`
的参数,我们将其用作在
`analyses`
数组中查找
`load`
函数的键(注意,我再次使用列表推导来快速进行搜索)。 然后,我们调用传递回购所有者和名称的此函数来获取
`vis_info`
JSON 有效负载,并将 Pandas
`DataFrame`
存储到名为
`pdf`
的类变量中。 然后,返回的 HTML 片段将
`pdf`
用作
`pd_entity`
值,将
`vis_info["chart_options"]`
用作
`pd_optio`
`ns`
。 在这里,我使用
[
`tojson` Jinja2 过滤器
](
http://jinja.pocoo.org/docs/templates/#list-of-builtin-filters
)
来确保在生成的 HTML 中正确进行了转义 。 即使已在栈上声明了
`vis_info`
变量,也允许我使用它,因为我为函数使用了
`@templateArgs`
装饰器。
在测试改进的应用之前,要做的最后一件事是确保主要的
`GitHubTracking`
PixieApp 类继承自
`RepoAnalysis`
PixieApp:
...
...
new/thoughtful-ds/04.md
浏览文件 @
0cf63d0d
...
...
@@ -26,7 +26,7 @@
Kubernetes 高级架构
在
堆
栈的顶部,我们具有
`kubectl`
命令行工具,该工具使用户能够通过向
**Kubernetes 主节点**
发送命令来管理 Kubernetes 集群。
`kubectl`
命令使用以下语法:
在栈的顶部,我们具有
`kubectl`
命令行工具,该工具使用户能够通过向
**Kubernetes 主节点**
发送命令来管理 Kubernetes 集群。
`kubectl`
命令使用以下语法:
```
py
kubectl
[
command
]
[
TYPE
]
[
NAME
]
[
flags
]
...
...
new/thoughtful-ds/05.md
浏览文件 @
0cf63d0d
...
...
@@ -8,7 +8,7 @@
*
使用
`@captureOutput`
装饰器调用第三方 Python 库
*
增加 PixieApp 的模块化和代码重用
*
PixieDust
支持流数据
*
PixieDust
对流数据的支持
*
通过 PixieApp 事件添加仪表板明细
*
使用自定义显示渲染器扩展 PixieDust
*
调试:
...
...
@@ -521,7 +521,7 @@ PixieApp 框架支持使用浏览器中可用的发布-订阅模式在不同组
订阅者可以通过声明
`<pd_event_handler>`
元素来监听事件,该元素可以接受 PixieApp Kernel 执行属性中的任何一个,例如
`pd_options`
和
`pd_script`
。 它还必须使用
`pd_source`
属性来过滤他们要处理的事件。
`pd_source`
属性可以包含以下值之一:
*
`targetDivId`
:仅接受来自具有指定 ID 的元素的事件
*
`type`
:仅接受
具有
指定类型的事件
*
`type`
:仅接受指定类型的事件
*
`"*"`
:表示将接受任何事件
例子:
...
...
@@ -878,8 +878,8 @@ class SimpleDisplayWithRenderer(BaseChartDisplay):
*
`n(ext)`
:继续的下一行,而不进入嵌套功能。
*
`l(list)`
:当前行周围的列表代码。
*
`c(ontinue)`
:继续运行该程序,并在下一个断点处停止,或者如果引发另一个异常。
*
`d(own)`
:向下移动
堆栈框
。
*
`u(p)`
:向上移动
堆
栈帧。
*
`d(own)`
:向下移动
栈帧
。
*
`u(p)`
:向上移动栈帧。
*
`<any expression>`
:在当前帧的上下文中求值并显示一个表达式。 例如,您可以使用
`locals()`
获取范围为当前帧的所有局部变量的列表。
如果发生异常并且您未设置自动
`pdb`
调用,则仍然可以在另一个单元格中使用
`%debug`
魔术来在事件发生后调用调试器,如以下屏幕截图所示:
...
...
@@ -930,7 +930,7 @@ count_cars('chevrolet')
[
您可以在此处找到代码文件
](
https://github.com/DTAIEB/Thoughtful-Data-Science/blob/master/chapter%205/sampleCode19.py
)
。
使用前面的代码运行单元将触发以下屏幕快照中所示的可视调试器。 用户界面允许您逐行进入代码,并具有检查局部变量,评估 Python 表达式和设置断点的能力。 代码执行工具栏提供了用于管理代码执行的按钮:恢复执行,单步执行当前行,单步执行特定功能的代码,运行至当前功能的末尾以及向上和向下显示
堆
栈帧 :
使用前面的代码运行单元将触发以下屏幕快照中所示的可视调试器。 用户界面允许您逐行进入代码,并具有检查局部变量,评估 Python 表达式和设置断点的能力。 代码执行工具栏提供了用于管理代码执行的按钮:恢复执行,单步执行当前行,单步执行特定功能的代码,运行至当前功能的末尾以及向上和向下显示栈帧 :
![
Visual debugging with PixieDebugger
](
img/00097.jpeg
)
...
...
@@ -975,7 +975,7 @@ count_cars('chevrolet')
PixieDebugger 已完全集成到 PixieApp 框架中。 每当触发路由时发生异常时,都会通过两个额外的按钮来增强产生的回溯:
*
**发布 Mortem**
:调用 PixieDebugger 启动事后故障排除会话,该会话可让您检查变量并分析
堆
栈帧
*
**发布 Mortem**
:调用 PixieDebugger 启动事后故障排除会话,该会话可让您检查变量并分析栈帧
*
**调试路由**
:重播当前路由,停止在 PixieDebugger 中的第一个可执行语句处
例如,让我们考虑以下代码来实现 PixieApp,该代码使用户通过提供列名和搜索查询来搜索
`cars`
数据集:
...
...
@@ -1078,7 +1078,7 @@ my_logger = pixiedust.getLogger(__name__)
*
`-l`
:按日志级别过滤,例如
`CRITICAL`
,
`FATAL`
,
`ERROR`
,
`WARNING`
,
`INFO`
和
`DEBUG`
*
`-f`
:过滤包含给定字符串的消息,例如
`Exception`
*
`-m`
:返回的
最大条日志消息
*
`-m`
:返回的
日志消息的最大数量
在下面的示例中,我们使用
`%pixiedustLog`
魔术来显示所有调试消息,将它们限制为最后五个消息:
...
...
new/thoughtful-ds/06.md
浏览文件 @
0cf63d0d
...
...
@@ -1275,7 +1275,7 @@ with open(os.path.join(image_dir, "retrained_label.txt"), "w") as f_label:
initial_value, name='final_weights')
```
2. 添加偏
差
,并初始化为零:
2. 添加偏
置
,并初始化为零:
```py
layer_biases = tf.Variable(tf.zeros([class_count]),
...
...
new/thoughtful-ds/07.md
浏览文件 @
0cf63d0d
...
...
@@ -742,7 +742,7 @@ nlu = NaturalLanguageUnderstandingV1(
* 情感
* 实体
* 概念
*
分类
目录
*
类别
目录
* 感情
* 关键词
* 关系
...
...
@@ -1071,7 +1071,7 @@ Twitter 情感仪表板的欢迎屏幕
在`Go`按钮中,我们使用用户提供的查询字符串调用`search_query`路由。 在此路由中,我们首先启动各种流,并从 Parquet 数据库所在的输出目录中创建一个存储在名为`parquet_df`的类变量中的批量`DataFrame`。 然后我们返回由三个小部件组成的 HTML 片段,其中显示了以下指标:
* 实体聚集的三种情感中的每一种的条形图
* 折线
图子图显示了按情感分布
的推文
* 折线
子图按情感分布显示了
的推文
* 实体的词云
每个小部件都使用第 5 章,“最佳做法和高级 PixieDust 概念”中记录的`pd_refresh_rate`属性,定期调用特定的路由。 我们还确保重新加载`parquet_df`变量以获取自上次以来到达的新数据。 然后在`pd_entity`属性中引用此变量以显示图表。
...
...
new/thoughtful-ds/08.md
浏览文件 @
0cf63d0d
...
...
@@ -133,7 +133,7 @@ statsmodels.tsa.tests.test_stattools.TestACF_FFT
创建 NumPy 数组的方法有很多。 以下是最常用的方法:
*
从使用
`np.array()`
的 Python 列表或元组中,例如
`np.array([1, 2, 3, 4])`
。
*
从 NumPy 工厂
功能
之一:
*
从 NumPy 工厂
函数
之一:
* `np.random`: 提供大量用于随机生成值的功能的模块。 此模块由以下类别组成:
...
...
@@ -924,7 +924,7 @@ def add_ticker_selection_markup(refresh_ids):
*
`deco`
:这是一个包装器方法,采用一个称为
`fn`
的参数,该参数是指向应用装饰器的原始函数的指针。 此方法返回一个名为
`wrap`
的匿名函数,当在用户代码中调用该函数时,该函数将在原始函数的环境中被调用。
*
`wrap`
: 这是采用三个参数的最终包装方法:
* `self`:指向该函数的主
机
类的指针
* `self`:指向该函数的主类的指针
* `*args`:原始方法定义的任何变量参数(可以为空)
* `**kwargs`:原始方法定义的任何关键字参数(可以为空)
...
...
new/thoughtful-ds/11.md
浏览文件 @
0cf63d0d
...
...
@@ -252,7 +252,7 @@
*
`pd_event_payload`
: 这将发出具有指定有效内容的 PixieApp 事件。 该属性遵循与
`pd_options`
相同的规则:
* 每个键值对必须使用`key=value`表示法进行编码
* 该事件将在点击或更改
事件
时触发
* 该事件将在点击或更改时触发
* 支持`$val()`指令以动态注入用户输入的输入
* 使用`<pd_event_payload>`子项输入原始 JSON。
...
...
@@ -280,7 +280,7 @@
*
`pd_event_handler`
: 订阅者可以通过声明一个
`<pd_event_handler>`
子元素来监听事件,该子元素可以接受任何 PixieApp 内核执行属性,例如
`pd_options`
和
`pd_script`
。 这个元素必须使用
`pd_source`
属性来过滤他们想要处理的事件。
`pd_source`
属性可以包含以下值之一:
* `targetDivId`:仅接受来自具有指定 ID 的元素的事件
* `type`:仅接受
具有
指定类型的事件。
* `type`:仅接受指定类型的事件。
```py
<div class="col-sm-6" id="listenerA{{prefix}}">
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录