为了了解如何从 HTML 中提取内容,了解 HTML 的基础很重要。 首先,HTML 代表**超文本标记语言**。 类似于 Markdown 或 XML(**可扩展标记语言**),它只是一种用于标记文本的语言。 在 HTML 中,显示文本包含在 HTML 元素的内容部分中,其中元素属性指定该元素在页面上的显示方式。
...
...
@@ -187,7 +187,7 @@ HTTP 方法
在页面上,我们看到的内容很少,只有一大堆国家/地区和它们的利率。 这是我们要抓取的表。
3. 返回 Jupyter 笔记本并将 HTML 作为 BeautifulSoup 对象加载,以便可以对其进行解析。 通过运行以下代码来执行此操作:
3. 返回 Jupyter 笔记本并将 HTML 作为 BeautifulSoup 对象加载,以便可以对其进行解析。 通过运行以下代码来执行此操作:
数据科学是一个新领域,您必须考虑到当前,它的前沿仍然有些模糊和动态。 由于数据科学是由各种学科构成的,所以请记住,根据数据科学家的能力和专业领域的不同,它们的个人资料也会有所不同(例如,您可以阅读说明性的 *Harlan D Harris 在[这个页面](http://radar.oreilly.com/2013/06/theres-more-than-one-kind-of-data-scientist.html)上发表的数据科学家*的文章,或深入讨论 有关 A 型或 B 型数据科学家以及其他有趣的分类法的信息,请访问[这个页面](https://stats.stackexchange.com/questions/195034/what-is-a-data-scientist))。
数据科学是一个新领域,您必须考虑到当前,它的前沿仍然有些模糊和动态。 由于数据科学是由各种学科构成的,所以请记住,根据数据科学家的能力和专业领域的不同,它们的个人资料也会有所不同(例如,您可以阅读 Harlan D Harris 在[这个页面](http://radar.oreilly.com/2013/06/theres-more-than-one-kind-of-data-scientist.html)上发表的《数据科学家》的说明性文章,或深入讨论 有关 A 型或 B 型数据科学家以及其他有趣的分类法的信息,请访问[这个页面](https://stats.stackexchange.com/questions/195034/what-is-a-data-scientist))。
这是一种多平台编程语言,您将找到在 Windows 或类 Unix 操作系统上运行的计算机的安装程序。
...
...
@@ -483,7 +483,7 @@ import pandas as pd
# Scikit 学习
作为 **SciKits**(**SciPy Toolkits**)的一部分开始,Scikit-learn 是 Python 数据科学运算的核心。 它提供了数据预处理,有监督和无监督学习,模型选择,验证和错误度量方面可能需要的所有功能。 希望我们在本书中详细讨论这个软件包。 Scikit-learn 于 2007 年由 David Cournapeau 发起,是一个 Google Summer of Code 项目。 自 2013 年以来,它已由 **INRIA**(**国家信息和自动化研究所**,即法国计算机科学与自动化研究所)的研究人员接管:
作为 **SciKits**(**SciPy 工具包**)的一部分开始,Scikit-learn 是 Python 数据科学运算的核心。 它提供了数据预处理,有监督和无监督学习,模型选择,验证和错误度量方面可能需要的所有功能。 希望我们在本书中详细讨论这个软件包。 Scikit-learn 于 2007 年由 David Cournapeau 发起,是一个 Google Summer of Code 项目。 自 2013 年以来,它已由 **INRIA**(**国家信息和自动化研究所**,即法国计算机科学与自动化研究所)的研究人员接管:
*[**网站**](http://scikit-learn.org/stable)
***打印时的版本**:0.19.1
...
...
@@ -547,7 +547,7 @@ import seaborn as sns
# 美丽的汤
**Beautiful Soup** 是 Leonard Richardson 的作品,是一种从 HTML 和 XML 文件中提取数据的出色工具,这些文件是从 Internet 检索的。 即使在*标签汤*(因此得名)的情况下,它的效果也非常好,这些汤是畸形,矛盾和不正确标签的集合。 选择解析器(Python 标准库中包含的 HTML 解析器可以正常工作)之后,借助 Beautiful Soup,您可以浏览页面中的对象并提取文本,表格和其他可能有用的信息:
**BeautifulSoup** 是 Leonard Richardson 的作品,是一种从 HTML 和 XML 文件中提取数据的出色工具,这些文件是从互联网检索的。 即使在*标签的汤*(因此得名)的情况下,它的效果也非常好,这些汤是畸形,矛盾和不正确标签的集合。 选择解析器(Python 标准库中包含的 HTML 解析器可以正常工作)之后,借助 BeautifulSoup,您可以浏览页面中的对象并提取文本,表格和其他可能有用的信息:
这就是为什么到目前为止,大多数 Web 爬虫都只能以通用方式理解和浏览 HTML 页面的原因。 最常用的 Web 解析器之一被称为 BeautifulSoup。 它是用 Python 编写的,是开源的,非常稳定且易于使用。 而且,它能够检测 HTML 页面中的错误和格式错误的代码段(始终记住,网页通常是人为产品,容易出错)。
这就是为什么到目前为止,大多数 Web 爬虫都只能以通用方式理解和浏览 HTML 页面的原因。 最常用的 Web 解析器之一被称为 BeautifulSoup。 它是用 Python 编写的,是开源的,非常稳定且易于使用。 而且,它能够检测 HTML 页面中的错误和格式错误的代码段(始终记住,网页通常是人为产品,容易出错)。
The performances of csr and csc really depend on the algorithm used and how it optimizes its parameters. You have to actually try them out on your algorithm to find out which performs best.
实际上,可以通过所谓的**转移学习技术**来训练预训练的模型甚至识别全新的课程。 这项技术不在本书的讨论范围之内,[但是您可以从 Keras 的博客中的示例中了解它](https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html)。
实际上,可以通过所谓的**迁移学习技术**来训练预训练的模型甚至识别全新的课程。 这项技术不在本书的讨论范围之内,[但是您可以从 Keras 的博客中的示例中了解它](https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html)。
当前的计算机,甚至是最新,最昂贵的计算机,其磁盘,内存和 CPU 的数量也有限。 每天处理太字节(PB)的信息并及时生成模型似乎非常困难。 此外,需要复制同时包含数据和处理软件的独立服务器。 否则,它可能成为系统的单点故障。
因此,大数据世界已经转移到了集群:它们由可变数量的*并不十分昂贵的*节点组成,并且位于高速 Internet 连接上。 通常,有些集群专用于存储数据(大硬盘,少 CPU 和少量内存),而另一些专用于处理数据(功能强大的 CPU,中等到大量内存,以及 小硬盘)。 此外,如果正确设置了群集,则可以确保可靠性(没有单点故障)和高可用性。
因此,大数据世界已经转移到了集群:它们由可变数量的*并不十分昂贵的*节点组成,并且位于高速互联网连接上。 通常,有些集群专用于存储数据(大硬盘,少 CPU 和少量内存),而另一些专用于处理数据(功能强大的 CPU,中等到大量内存,以及 小硬盘)。 此外,如果正确设置了群集,则可以确保可靠性(没有单点故障)和高可用性。