Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
Laurence001
d2l-zh
提交
d5aa5569
D
d2l-zh
项目概览
Laurence001
/
d2l-zh
与 Fork 源项目一致
从无法访问的项目Fork
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
d2l-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
d5aa5569
编写于
1月 07, 2021
作者:
R
Rachel Hu
提交者:
Aston Zhang
2月 17, 2021
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
1.3.2 无监督学习 done
上级
6bafcaf9
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
12 addition
and
6 deletion
+12
-6
chapter_introduction/index.md
chapter_introduction/index.md
+12
-6
未找到文件。
chapter_introduction/index.md
浏览文件 @
d5aa5569
...
...
@@ -463,13 +463,19 @@ Ent - - - Ent - Ent
老板站在身后,准确地告诉模型在每种情况下应该做什么,直到模型学会从情况到行动的映射。
取悦这位老板很容易,只需尽快识别出模式并模仿他们的行为即可。
相反,为一个不知道自己想让你做什么的老板工作会让人沮丧。然而,如果你打算成为一名数据科学家,你最好习惯它。老板可能会给你一大堆数据,然后让你用它做一些数据科学研究!这听起来很模糊,因为确实如此。我们称这类问题为“无监督学习”,我们可以问的问题的类型和数量只受我们创造力的限制。我们将在后面的章节中讨论无监督学习技术。为了激起您目前的胃口,我们将介绍以下几个你可能会问的问题。
相反,如果你的工作没有十分具体的目标,你就需要“自发”地去学习了。
(如果你打算成为一名数据科学家,你最好培养这个习惯。)
比如,你的老板可能会给你一大堆数据,然后让你用它做一些数据科学研究,却没有对结果要求。
我们称这类数据中不含有“目标”的机器学习问题为
*无监督学习*
(unsupervised learning),
我们将在后面的章节中讨论无监督学习技术。
那么无监督学习可以回答什么样的问题呢?我们来看看下面的例子:
*
*聚类*
(clustering)问题:没有标签的情况下,我们是否能给数据分类呢?比如,给定一组照片,我们能把它们分成风景照片、狗、婴儿、猫和山峰的照片吗?同样,给定一组用户的网页浏览记录,我们能否将具有相似行为的用户聚类吗?
*
*主成分分析*
(principal component analysis)问题:我们能否找到少量的参数来准确地捕捉数据的线性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。再比如,裁缝们已经开发出了一小部分参数,这些参数相当准确地描述了人体的形状,以适应衣服的需要。另一个例子:在欧几里得空间中是否存在一种(任意结构的)对象的表示,使其符号属性能够很好地匹配?这可以用来描述实体及其关系,例如"罗马" $-$ "意大利" $+$ "法国" $=$ "巴黎"。
*
*因果关系*
(causality)和
*概率图模型*
(probabilistic graphical models)问题:我们能否描述观察到的许多数据的根因?例如,如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据,我们能否简单地根据经验数据发现它们之间的关系?
*
*生成对抗性网络*
(generative adversarial networks):为我们提供一种合成数据的方法,甚至像图像和音频这样复杂的结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试,它是无监督学习的另一个重要而令人兴奋的领域。
*
我们能找到少量的准确地总结了数据的原型吗?给定一组照片,我们能把它们分成风景照片、狗、婴儿、猫和山峰的照片吗?同样,给定一组用户的浏览活动,我们能将他们分组为具有相似行为的用户吗?这个问题通常被称为
*聚类*
(clustering)。
*
我们能否找到少量的参数来准确地捕捉数据的相关属性?球的运动轨迹可以用球的速度、直径和质量来描述。裁缝们已经开发出了一小部分参数,这些参数相当准确地描述了人体的形状,以适应衣服的需要。这些问题被称为
*子空间估计*
(subspace estimation)。如果相关性是线性的,则称为
*主成分分析*
(principal component analysis)。
*
在欧几里得空间中是否存在一种(任意结构的)对象的表示,使其符号属性能够很好地匹配?这可以用来描述实体及其关系,例如"罗马" $-$ "意大利" $+$ "法国" $=$ "巴黎"。
*
有没有描述我们观察到的许多数据的根因?例如,如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据,我们能否简单地根据经验数据发现它们之间的关系?有关
*因果关系*
(causality)和
*概率图模型*
(probabilistic graphical models)的领域解决了这个问题。
*
无监督学习的另一个重要而令人兴奋的最新发展是
*生成对抗性网络*
(generative adversarial networks)的出现。这些为我们提供了一种程序方法来合成数据,甚至像图像和音频这样复杂的结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试。
### 与环境互动
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录