**BeautifulSoup** 是 Leonard Richardson 的作品,是一种从 HTML 和 XML 文件中提取数据的出色工具,这些文件是从互联网检索的。 即使在*标签的汤*(因此得名)的情况下,它的效果也非常好,这些汤是畸形,矛盾和不正确标签的集合。 选择解析器(Python 标准库中包含的 HTML 解析器可以正常工作)之后,借助 BeautifulSoup,您可以浏览页面中的对象并提取文本,表格和其他可能有用的信息:
@@ -1279,7 +1279,7 @@ In: from sklearn.datasets import fetch_mldata
[LIBSVM 数据](http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/)是一个页面,可从许多其他集合中收集数据。 它由 LIBSVM 的作者之一 Chih-Jen LiN 维护,LIBSVM 是一种用于预测的支持向量机学习算法(`Chih-Chung Chang and Chih-Jen Lin, LIBSVM: a library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2:27:1--27:27, 2011`)。 这提供了以 LIBSVM 格式存储的不同回归,二进制和多标签分类数据集。 如果您想尝试使用支持向量机的算法,该存储库将非常有趣,并且再次免费供您下载和使用数据。