提交 6590b389 编写于 作者: W wizardforcel

2022-01-01 13:10:48

上级 acf34ff6
......@@ -30,7 +30,7 @@
+ [USF MSDS501 计算数据科学中文讲义](docs/usf-msds501-notes/SUMMARY.md)
+ [社交媒体挖掘](docs/social-media-mining/SUMMARY.md)
+ [数据科学和人工智能技术笔记](docs/ds-ai-tech-notes/SUMMARY.md)
+ [Python 和 Jupyter 机器学习入门](docs/begin-ds-py-jupyter/SUMMARY.md)
+ [Python 和 Jupyter 数据科学入门](docs/begin-ds-py-jupyter/SUMMARY.md)
+ [Python 数据科学和机器学习实践指南](docs/handson-ds-py-ml/SUMMARY.md)
+ [精通 Python 数据科学](docs/master-py-ds/SUMMARY.md)
+ [Python 数据科学本质论](docs/py-ds-essentials/SUMMARY.md)
......
......@@ -258,7 +258,7 @@
+ [十九、数据整理(下)](docs/ds-ai-tech-notes/19.2.md)
+ [二十、数据可视化](docs/ds-ai-tech-notes/20.md)
+ [二十一、统计学](docs/ds-ai-tech-notes/21.md)
+ [Python 和 Jupyter 机器学习入门](docs/begin-ds-py-jupyter/README.md)
+ [Python 和 Jupyter 数据科学入门](docs/begin-ds-py-jupyter/README.md)
+ [零、前言](docs/begin-ds-py-jupyter/0.md)
+ [一、Jupyter 基础知识](docs/begin-ds-py-jupyter/1.md)
+ [二、数据清理和高级机器学习](docs/begin-ds-py-jupyter/2.md)
......
# Python 和 Jupyter 机器学习入门
# Python 和 Jupyter 数据科学入门
> 原文:[Beginning Data Science with Python and Jupyter](https://www.bookzz.ren/bookzz/3610112/75a879)
>
......
# 零、前言
成为科技行业的数据科学家是当今地球上最有意义的职业之一。 我去研究了技术公司中数据科学家角色的实际职位描述,并将这些要求简化为您将在本课程中看到的主题。
《Python 数据科学和机器学习实用指南》确实很全面。 我们将从 Python 速成班开始,并回顾一些基本的统计数据和概率,但随后我们将直接探讨数据挖掘和机器学习中的 60 多个主题。 其中包括贝叶斯定理,聚类,决策树,回归分析,实验设计等; 我们将全部看一下。 其中一些主题真的很有趣。
我们将使用实际的用户电影分级数据来开发实际的电影推荐系统。 我们将创建一个实际上可用于维基百科数据的搜索引擎。 我们将构建一个垃圾邮件分类器,该分类器可以正确地对您的电子邮件帐户中的垃圾邮件和非垃圾邮件进行分类,并且我们还将在整个章节中介绍如何使用 Apache Spark 将其扩展到在大数据上运行的集群。
如果您是想要过渡到数据科学职业的软件开发人员或程序员,那么本课程将教您最热门的技能,而不会涉及这些主题附带的所有数学符号和伪装。 我们只是要解释这些概念,并向您展示一些实际有效的 Python 代码,您可以深入研究并弄混这些概念,以使这些概念深入人心,如果您是金融行业的数据分析师, 该课程还可以教您如何过渡到科技行业。 您所需要的只是在编程或脚本编写方面的一些先验经验,您应该会很好。
本书的一般格式是我将从每个概念入手,并在许多章节和图形示例中对其进行解释。 我将向您介绍数据科学家喜欢使用的一些符号和奇特的术语,以便您可以说相同的语言,但是概念本身通常非常简单。 之后,我将带您进入一些实际的 Python 代码,这些代码可以正常运行,我们可以运行并弄乱它们,并且将向您展示如何将这些想法实际应用于实际数据。 这些将以 IPython 笔记本文件的形式呈现,这是一种格式,我可以在其中混合代码和代码周围的注释,以解释概念中发生的事情。 在阅读完本书后,您可以随身携带这些笔记本文件,并在以后的职业生涯中用作快速参考。在每个概念的结尾,我都鼓励您深入学习该 Python 代码, 一些修改,弄乱它,并通过动手实践并实际进行一些修改并查看其效果来获得更多的熟悉。
# 这本书是给谁的
如果您是一位新兴的数据科学家或数据分析师,想使用 Python 分析数据并从中获得切实可行的见解,那么本书非常适合您。 想要在 Data Science 领域赚钱的具有 Python 经验的程序员也会发现这本书非常有用。
# 约定
在本书中,您将找到许多可以区分不同类型信息的文本样式。 以下是这些样式的一些示例,并对其含义进行了解释。
文本中的代码字,数据库表名称,文件夹名称,文件名,文件扩展名,路径名,伪 URL,用户输入和 Twitter 句柄如下所示:“我们可以使用`sklearn.metrics`中的`r2_score()`函数进行测量。”
代码块设置如下:
```py
import numpy as np
import pandas as pd
from sklearn import tree
input_file = "c:/spark/DataScience/PastHires.csv"
df = pd.read_csv(input_file, header = 0)
```
当我们希望引起您对代码块特定部分的注意时,相关行或项目以粗体显示:
```py
import numpy as np
import pandas as pd
from sklearn import tree
input_file = "c:/spark/DataScience/PastHires.csv"
df = pd.read_csv(input_file, header = 0)
```
任何命令行输入或输出的编写方式如下:
```py
spark-submit SparkKMeans.py
```
新术语和重要词以粗体显示。 您在屏幕上看到的字词,例如在菜单或对话框中的字样如下所示:“在 Windows 10 上,您需要打开“开始”菜单,然后转到“Windows 系统 | 控制面板”以打开控制面板。”
警告或重要提示如下所示。
提示和技巧如下所示。
# 读者反馈
始终欢迎读者的反馈。 让我们知道您对这本书的看法-您喜欢或不喜欢的书。 读者反馈对我们很重要,因为它可以帮助我们开发出您真正能充分利用的标题。
要向我们发送一般反馈,只需通过电子邮件发送`feedback@packtpub.com`,然后在您的消息主题中提及该书的标题。
如果您有专业知识的主题,并且对写作或撰写书籍感兴趣,请参阅[这个页面](http://www.packtpub.com/authors)的作者指南。
# 客户支持
既然您是 Packt 书的骄傲拥有者,我们可以通过很多方法来帮助您从购买中获得最大收益。
# 下载示例代码
您可以从[这个页面](http://www.packtpub.com)的帐户中下载本书的示例代码文件。 如果您在其他地方购买了此书,则可以访问[这个页面](http://www.packtpub.com/support)并注册以将文件直接通过电子邮件发送给您。
您可以按照以下步骤下载代码文件:
1. 使用您的电子邮件地址和密码登录或注册到我们的网站。
2. 将鼠标指针悬停在顶部的“支持”选项卡上。
3. 单击代码下载和勘误。
4. 在搜索框中输入书籍的名称。
5. 选择您要下载其代码文件的书。
6. 从购买本书的下拉菜单中选择。
7. 单击代码下载。
您还可以通过在 Packt Publishing 网站上的图书网页上单击“代码文件”按钮来下载代码文件。 通过在“搜索”框中输入书籍的名称,可以访问此页面。 请注意,您需要登录到 Packt 帐户。
下载文件后,请确保使用以下最新版本解压缩或解压缩文件夹:
* Windows 的 WinRAR/7-Zip
* 适用于 Mac 的 Zipeg/iZip/UnRarX
* 适用于 Linux 的 7-Zip/PeaZip
本书的代码包也托管在[这个页面](https://github.com/PacktPublishing/Hands-On-Data-Science-and-Python-Machine-Learning)。 我们还从[这个页面](https://github.com/PacktPublishing/)提供了丰富的书籍和视频目录中的其他代码包。 去看一下!
# 下载本书的彩色图像
我们还为您提供了 PDF 文件,其中包含本书中使用的屏幕截图/图表的彩色图像。 彩色图像将帮助您更好地了解输出中的变化。 您可以从[这个页面](https://www.packtpub.com/sites/default/files/downloads/HandsOnDataScienceandPythonMachineLearning_ColorImages.pdf)下载此文件。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
# Python 数据科学和机器学习实践指南
> 原文:[Hands-On Data Science and Python Machine Learning](https://www.bookzz.ren/bookzz/3632381/8c928c)
>
> 协议:[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
>
> 不要担心自己的形象,只关心如何实现目标。——《原则》,生活原则 2.3.c
* [在线阅读](https://ds.apachecn.org)
* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
* [ApacheCN 学习资源](http://www.apachecn.org/)
## 贡献指南
本项目需要校对,欢迎大家提交 Pull Request。
> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越,但我们并不要求您做到十全十美,因此请不要担心因为翻译上犯错——在大部分情况下,我们的服务器已经记录所有的翻译,因此您不必担心会因为您的失误遭到无法挽回的破坏。(改编自维基百科)
## 联系方式
### 负责人
* [飞龙](https://github.com/wizardforcel): 562826179
### 其他
* 在我们的 [apachecn/apachecn-ds-zh](https://github.com/apachecn/apachecn-ds-zh) github 上提 issue.
* 发邮件到 Email: `apachecn@163.com`.
* 在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
## 赞助我们
![](https://imgconvert.csdnimg.cn/aHR0cDovL2hvbWUuYXBhY2hlY24ub3JnL2ltZy9hYm91dC9kb25hdGUuanBn?x-oss-process=image/format,png)
此差异已折叠。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册