提交 70f444b8 编写于 作者: W wizardforcel

title

上级 98c1ca27
......@@ -20,7 +20,7 @@
+ [七、非线性特征提取和模型堆叠](7.非线性特征提取和模型堆叠.md)
+ [八、自动化特征提取器:图像特征提取和深度学习](8.自动化特征提取器:图像特征提取和深度学习.md)
+ 九、回到特征:将它们放到一起
+ [附录、线性模型和线性代数基础](附录线性模型和线性代数基础.md)
+ [附录、线性模型和线性代数基础](附录.线性模型和线性代数基础.md)
## 联系方式
......
章节1.介绍
# 一、引言
机器学习将数据拟合到数学模型中来获得结论或者做出预测。这些模型吸纳特征作为输入。特征就是原始数据某方面的数学表现。在机器学习管道中特征位于数据和模型之间。特征工程是一项从数据中提取特征,然后转换成适合机器学习模型的格式的艺术。这是机器学习管道关键的一步,因为正确的特征可以减轻建模的难度,并因此使管道能输出更高质量的结果。从业者们认为构建机器学习管道的绝大多数时间都花在特征工程和数据清洗上。然后,尽管它很重要,这个话题却很少单独讨论。也许是因为正确的特征只能在模型和数据的背景中定义。由于数据和模型如此多样化,所以很难概括项目中特征工程的实践。
尽管如此,特征工程不仅仅是一种临时实践。工作中有更深层的原则,最好就地进行说明。本书的每一章都针对一个数据问题:如何表示文本数据或图像数据,如何降低自动生成的特征的维度,何时以及如何规范化等等。把它看作是一个相互联系的短篇小说集,而不是一本长篇小说。每章都提供了大量现有特征工程技术的插图。它们一起阐明了总体原则。
......
# 第二章 简单数字的奇特技巧
# 二、简单数字的奇特技巧
在深入研究诸如文本和图像这样的复杂数据类型之前,让我们先从最简单的数字数据开始。它们可能来自各种来源:地理位置或人、购买的价格、传感器的测量、交通计数等。数字数据已经是数学模型容易消化的格式。这并不意味着不再需要特征工程。好的特征不仅代表数据的显著方面,而且符合模型的假设。因此,转换常常是必要的。数字特征工程技术是基础。当原始数据被转换为数字特征时,它们可以被应用。
......
# 第三章:文本数据: 拉平、过滤和分块
# 三、文本数据: 展开、过滤和分块
如果让你来设计一个算法来分析以下段落,你会怎么做?
......
# 第四章 特征缩放的效果:从词袋到 TF-IDF
# 四、特征缩放的效果:从词袋到 TF-IDF
字袋易于生成,但远非完美。假设我们平等的统计所有单词,有些不需要的词也会被强调。在第三章提过一个例子,Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中,“Eama”和“raven”都出现了3词,但是“the”的出现高达8次,“and”出现了次,另外“it”以及“was”也都出现了4词。仅仅通过简单的频率统计,两个主要角色并不突出。这是有问题的。
......
# 第5张 类别特征:机器鸡时代的鸡蛋计数
# 五、类别特征:机器鸡时代的鸡蛋计数
一个类别特征,见名思义,就是用来表达一种类别或标签。比如,一个类别特征能够表达世界上的主要城市,一年四季,或者说一个公司的产品(石油、路程、技术)。在真实世界的数据集中,类别值的数量总是无限的。同时这些值一般可以用数值来表示。但是,与其他数值变量不一样的是,类别特征的数值变量无法与其他数值变量进行比较大小。(作为行业类型,石油与旅行无法进行比较)它们被称之为非序的。
......
# 附录 线性建模和线性代数基础 #
# 附录、线性模型和线性代数基础
## 线性分类概述 ##
当我们有一个已经标记的数据集时,特征空间散布着来自不同类别的数据点。分类器的工作是将不同类别的数据点分开。它可以通过生成一个数据点与另一个数据点非常不同的输出来实现。例如,当这里只有两个类别的时候,一个好的分类器应该为一个类别产生大量的输出,而另一个则为小的输出。作为一个阶级而不是另一个阶级的点就形成了一个决策表面。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册