1.3.2 无监督学习 done

d5aa5569 · Rachel Hu · Aston Zhang · 6bafcaf9 · d5aa5569
隐藏空白更改
内联并排

Showing with 12 addition and 6 deletion

chapter_introduction/index.md chapter_introduction/index.md +12 -6

未找到文件。
--- a/chapter_introduction/index.md
+++ b/chapter_introduction/index.md
@@ -463,13 +463,19 @@ Ent  -    -    -     Ent      -    Ent
 老板站在身后，准确地告诉模型在每种情况下应该做什么，直到模型学会从情况到行动的映射。
 取悦这位老板很容易，只需尽快识别出模式并模仿他们的行为即可。

-相反，为一个不知道自己想让你做什么的老板工作会让人沮丧。然而，如果你打算成为一名数据科学家，你最好习惯它。老板可能会给你一大堆数据，然后让你用它做一些数据科学研究！这听起来很模糊，因为确实如此。我们称这类问题为“无监督学习”，我们可以问的问题的类型和数量只受我们创造力的限制。我们将在后面的章节中讨论无监督学习技术。为了激起您目前的胃口，我们将介绍以下几个你可能会问的问题。
+相反，如果你的工作没有十分具体的目标，你就需要“自发”地去学习了。
+（如果你打算成为一名数据科学家，你最好培养这个习惯。）
+比如，你的老板可能会给你一大堆数据，然后让你用它做一些数据科学研究，却没有对结果要求。
+我们称这类数据中不含有“目标”的机器学习问题为*无监督学习*（unsupervised learning），
+我们将在后面的章节中讨论无监督学习技术。
+那么无监督学习可以回答什么样的问题呢？我们来看看下面的例子：
+
+* *聚类*（clustering）问题：没有标签的情况下，我们是否能给数据分类呢？比如，给定一组照片，我们能把它们分成风景照片、狗、婴儿、猫和山峰的照片吗？同样，给定一组用户的网页浏览记录，我们能否将具有相似行为的用户聚类吗？
+* *主成分分析*（principal component analysis）问题：我们能否找到少量的参数来准确地捕捉数据的线性相关属性?比如，一个球的运动轨迹可以用球的速度、直径和质量来描述。再比如，裁缝们已经开发出了一小部分参数，这些参数相当准确地描述了人体的形状，以适应衣服的需要。另一个例子：在欧几里得空间中是否存在一种(任意结构的)对象的表示，使其符号属性能够很好地匹配?这可以用来描述实体及其关系，例如"罗马" $-$ "意大利" $+$ "法国" $=$ "巴黎"。
+* *因果关系*（causality）和*概率图模型*（probabilistic graphical models）问题：我们能否描述观察到的许多数据的根因?例如，如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据，我们能否简单地根据经验数据发现它们之间的关系？
+* *生成对抗性网络*（generative adversarial networks）：为我们提供一种合成数据的方法，甚至像图像和音频这样复杂的结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试，它是无监督学习的另一个重要而令人兴奋的领域。
+

-* 我们能找到少量的准确地总结了数据的原型吗？给定一组照片，我们能把它们分成风景照片、狗、婴儿、猫和山峰的照片吗？同样，给定一组用户的浏览活动，我们能将他们分组为具有相似行为的用户吗？这个问题通常被称为*聚类*（clustering）。
-* 我们能否找到少量的参数来准确地捕捉数据的相关属性?球的运动轨迹可以用球的速度、直径和质量来描述。裁缝们已经开发出了一小部分参数，这些参数相当准确地描述了人体的形状，以适应衣服的需要。这些问题被称为*子空间估计*（subspace estimation）。如果相关性是线性的，则称为*主成分分析*（principal component analysis）。
-* 在欧几里得空间中是否存在一种(任意结构的)对象的表示，使其符号属性能够很好地匹配?这可以用来描述实体及其关系，例如"罗马" $-$ "意大利" $+$ "法国" $=$ "巴黎"。
-* 有没有描述我们观察到的许多数据的根因?例如，如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据，我们能否简单地根据经验数据发现它们之间的关系？有关*因果关系*（causality）和*概率图模型*（probabilistic graphical models）的领域解决了这个问题。
-* 无监督学习的另一个重要而令人兴奋的最新发展是*生成对抗性网络*（generative adversarial networks）的出现。这些为我们提供了一种程序方法来合成数据，甚至像图像和音频这样复杂的结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试。

 ### 与环境互动