提交 1b23d2fa 编写于 作者: W wizardforcel

2020-12-12 19:59:09

上级 1ab52948
......@@ -13,8 +13,8 @@
1. 无监督学习可以独立于有监督的方法应用,因为其目标是不同的。 如果问题需要监督的方法,则通常不能采用无监督的学习作为替代解决方案。 通常,无监督方法尝试从数据集中提取信息片段(例如,聚类)而没有任何外部提示(例如预测错误)。 相反,受监督的方法需要提示才能更正其参数。
2. 由于目标是找到趋势的原因,因此有必要执行诊断分析。
3. 没有; 从单个分布中提取 *n 个*独立样本的可能性作为单个概率的乘积(主要假设请参见问题 4)。
4. 主要假设是样本是**独立且** **均匀分布的****IID**
3. 没有; 从单个分布中提取`n`独立样本的可能性作为单个概率的乘积(主要假设请参见问题 4)。
4. 主要假设是样本是**独立同分布****IID**)的
5. 性别可以编码为数字特征(例如,一键编码); 因此,我们需要考虑两种可能性。 如果在属性之间不存在性别,而其他特征与性别不相关,则聚类结果是完全合理的。 如果存在性别(作为通用聚类方法)是基于样本之间的相似性的,则 50/50 的结果表示性别不是歧视性特征。 换句话说,给定两个随机选择的样本,它们的相似性不受性别影响(或受到轻微影响),因为其他特征占主导。 例如,在这种特殊情况下,平均分数或年龄有较大的差异,因此它们的影响更大。
6. 我们可以预期会有更紧凑的群体,其中每个主要特征的范围都较小。 例如,一个小组可以包含 13-15 岁的学生,并带有所有可能的分数,依此类推。 另外,我们可以观察基于单个特征的细分(例如年龄,平均分数等)。 最终结果取决于向量的数值结构,距离函数,当然还取决于算法。
......@@ -28,16 +28,16 @@
1. 曼哈顿距离与 Minkowski 距离相同,其中 *p = 1* ; 因此,我们希望观察到更长的距离。
1. 曼哈顿距离与 Minkowski 距离相同,其中`p = 1`; 因此,我们希望观察到更长的距离。
2. 没有; 收敛速度主要受质心的初始位置影响。
3. 是; K 均值设计用于凸簇,而对于凹簇则性能较差。
4. 这意味着所有聚类(样本百分比可忽略不计)分别仅包含属于同一类别(即具有相同真实标签)的样本。
5. 它表示真实标签分配和分配之间的中等/强烈的负差异。 这个值是明显的负条件,不能接受,因为绝大多数样本已分配给错误的聚类。
6. 不可以,因为调整后的 Rand 分数是根据真实情况得出的(也就是说,预期的簇数是固定的)。
7. 如果所有基本查询都需要相同的时间,则会在 *60-(2×4)-2 = 50* 秒内执行它们。 因此,它们每个都需要 *50/100 = 0.5* 秒。 在*叶子大小= 50* 的情况下,我们可以期望将 *50-NN* 查询的执行时间减半,而对基本查询没有影响。 因此,可用于基本查询的总时间变为 *60-(2×2)-2 = 54* 秒。 因此,我们可以执行 *108* 基本查询。
8. 没有; 球树是一种不会遭受维度诅咒的数据结构,其计算复杂度始终为 *O(N log M)*
7. 如果所有基本查询都需要相同的时间,则会在`60 - (2×4) - 2 = 50`秒内执行它们。 因此,它们每个都需要`50/100 = 0.5`秒。 在叶子大小`= 50`的情况下,我们可以期望将 50-NN 查询的执行时间减半,而对基本查询没有影响。 因此,可用于基本查询的总时间变为`60 - (2×2) - 2 = 54`秒。 因此,我们可以执行 108 个基本查询。
8. 没有; 球树是一种不会遭受维度诅咒的数据结构,其计算复杂度始终为`O(N log M)`
9. 高斯 *N([-1.0,0.0],diag [0.1,0.2])**N([-0.8,0.0 ],diag [0.3,0.3])*重叠(即使所得聚类非常伸展),而第三个则足够远(考虑均值和方差),可以被单独的聚类捕获。 因此,最佳簇大小为 2,而 K 均值很难将大斑点正确地分为两个内聚分量(特别是对于大量样本)。
9. 高斯`N([-1.0, 0.0], diag[0.1, 0.2])``N([-0.8, 0.0], diag[0.3, 0.3])`重叠(即使所得聚类非常伸展),而第三个则足够远(考虑均值和方差),可以被单独的聚类捕获。 因此,最佳簇大小为 2,而 K 均值很难将大斑点正确地分为两个内聚分量(特别是对于大量样本)。
10. VQ 是一种有损压缩方法。 仅当语义没有通过小或中转换而改变时,才可以使用它。 在这种情况下,如果不修改基础语义就不可能与另一个交换令牌。
......@@ -50,11 +50,11 @@
1. 没有; 在凸集中,给定两个点,连接它们的线段始终位于该集内。
2. 考虑到数据集的径向结构,RBF 内核通常可以解决该问题。
3.*ε= 1.0* 的情况下,许多点无法达到密度。 当球的半径减小时,我们应该期望有更多的噪点。
3.`ε = 1.0`的情况下,许多点无法达到密度。 当球的半径减小时,我们应该期望有更多的噪点。
4. 没有; k 型参量可以采用任何度量。
5. 没有; DBSCAN 对几何不敏感,并且可以管理任何种类的群集结构。
6. 我们已经表明,小批量 K 均值的性能稍差于 K 均值。 因此,答案是肯定的。 使用批处理算法可以节省内存。
7. 考虑到噪声的方差为*σ^2 = 0.005→σ≈0.07* ,它比聚类标准偏差小约 14 倍,因此,我们不能期望有这么多的新 在稳定的群集配置中分配(80%)。
7. 考虑到噪声的方差为`σ^2 = 0.005 → σ ≈ 0.07`,它比聚类标准偏差小约 14 倍,因此,我们不能期望有这么多的新 在稳定的群集配置中分配(80%)。
......@@ -66,7 +66,7 @@
1. 在凝聚方法中,该算法从每个样本(被视为一个集群)开始,然后继续合并子集群,直到定义了一个集群。 在分裂方法中,该算法从包含所有样本的单个簇开始,然后通过拆分将其进行到每个样本组成一个簇为止。
2. 最近的点是*`(0, 0)`**`(0, 1)`*,因此单键是 *L [s] (a,b)= 1* 。 最远的点是*(-1,-1)**(1、1)*,因此完整的链接是 *L [c] (a,b )=2√2*
2. 最近的点是`(0, 0)``(0, 1)`,因此单键是`L[s](a, b) = 1`。 最远的点是`(-1, -1)``(1, 1)`,因此完整的链接是`L[c(a, b) = 2√2`
3. 没有; 树状图是给定度量和链接的分层聚类过程的树表示。
4. 在聚集聚类中,树状图的初始部分包含所有样本作为自治聚类。
5. `y`轴报告差异。
......@@ -98,11 +98,11 @@
1. 由于随机变量显然是独立的,因此 *P(高,雨)= P(高)P(雨)= 0.75•0.2 = 0.15。*
2. 直方图的主要缺点之一是,当 bin 的数量太大时,它们中的许多都开始为空,因为在所有值范围内都没有样本。 在这种情况下,`X`的基数可以小于 1,000,或者即使具有超过 1,000 个样本,相对频率也可以集中在小于 1,000 的多个 bin 中。
3. 样本总数为 75,并且各个条带的长度相等。 因此, *P(0 < x < 2)= 20/75≈0.27,P(2 < x < 4)= 30/75 = 0.4**P(4 < x < 6)= 25/75≈0.33* 。 由于我们没有任何样本,因此我们可以假设 *P(x > 6)= 0* ; 因此, *P(x > 2)=* *P(2 < x < 4)+ P(4 < x < 6)≈0.73* 。 考虑到 *0.73•75≈55* ,这是属于 *x > 2* 的 bin 的样本数,我们立即得到确认。
4. 在正态分布 *N`(0, 1)`*中,最大密度为 *p(0)≈0.4* 。 在大约三个标准差之后, *p(x)≈0* ; 因此,通常无法将样本 *p(x)= 0.35* 的样本`x`视为异常。
5. *min**std(X),IQR(X)/1.34)≈2.24* 时,最佳带宽为 *h = 0.9•2.24•500^(-0.2 [) = 0.58*
1. 由于随机变量显然是独立的,因此`P(Tall, Rain) = P(Tall)P(Rain) = 0.75 * 0.2 = 0.15`
2. 直方图的主要缺点之一是,当桶的数量太大时,它们中的许多都开始为空,因为在所有值范围内都没有样本。 在这种情况下,`X`的基数可以小于 1,000,或者即使具有超过 1,000 个样本,相对频率也可以集中在小于 1,000 的多个桶中。
3. 样本总数为 75,并且各个条带的长度相等。 因此, `P(0 < x < 2) = 20/75 ≈ 0.27``P(2 < x < 4) = 30/75 = 0.4``P(4 < x < 6) = 25/75 ≈ 0.33`。 由于我们没有任何样本,因此我们可以假设`P(x > 6) = 0`; 因此,`P(x > 2) = P(2 < x < 4) + P(4 < x < 6) ≈ 0.73`。 考虑到`0.73•75 ≈ 55`,这是属于`x > 2`的桶的样本数,我们立即得到确认。
4. 在正态分布`N(0, 1)`中,最大密度为`p(0) ≈ 0.4`。 在大约三个标准差之后,`p(x) ≈ 0`; 因此,通常无法将样本`p(x) = 0.35`的样本`x`视为异常。
5.`min(std(X), IQR(X) /1.34) ≈ 2.24`时,最佳带宽为`h = 0.9•2.24•500^(-0.2) = 0.58`
6. 即使可以采用高斯核,在给出分布描述的情况下,我们也应首先选择指数核,这样可以使均值周围迅速下降。
7. 这将是最合乎逻辑的结论。 实际上,就新颖性而言,我们也应该期望新样本会改变分布,以便为新颖性建模。 如果在重新训练模型后概率密度仍然很低,则样本很可能是异常的。
......@@ -114,14 +114,14 @@
1. 协方差矩阵已经是对角线; 因此,特征向量是标准`x``y`versors(1,0)`(0, 1)`,特征值是 2 和 1。因此,`x`轴是主要成分,`y`轴是第二个成分。
2. 由于球 *B [0.5] `(0, 0)`*是空的,因此在该点( *0,0* )周围没有样本。 考虑到水平方差*σ [x]^2 = 2* ,我们可以想象`X`被分解为两个斑点,因此可以想象 *x = 0* 行是水平判别器。 但是,这只是一个假设,需要使用实际数据进行验证。
1. 协方差矩阵已经是对角线; 因此,特征向量是标准`x``y`,分别为`(1, 0)``(0, 1)`,特征值是 2 和 1。因此,`x`轴是主要成分,`y`轴是第二个成分。
2. 由于球`B[0.5](0, 0)`是空的,因此在该点`(0, 0)`周围没有样本。 考虑到水平方差`σ[x]^2 = 2`,我们可以想象`X`被分解为两个斑点,因此可以想象`x = 0`行是水平判别器。 但是,这只是一个假设,需要使用实际数据进行验证。
3. 不,他们不是。 PCA 之后的协方差矩阵不相关,但不能保证统计独立性。
4. 是; Kurt(`X`的分布是超高斯分布,因此达到峰值且尾巴很重。 这样可以保证找到独立的组件。
4. 是; `Kurt(X)`的分布是超高斯分布,因此达到峰值且尾巴很重。 这样可以保证找到独立的组件。
5. 由于`X`包含负数,因此无法使用 NNMF 算法。
6. 没有; 由于字典有 10 个元素,因此意味着文档由许多重复出现的术语组成,因此字典不够完整( *10 < 30* )。
7. 样本*(x,y)∈^2* 通过二次多项式变换为*(ax,by,cx^2 ,dy^2 ,exy,f)∈^6*
6. 没有; 由于字典有 10 个元素,因此意味着文档由许多重复出现的术语组成,因此字典不够完整( `10 < 30`)。
7. 样本`(x, y) ∈ R^2`通过二次多项式变换为`(ax, by, cx^2, dy^2, exy, f) ∈ R^6`
......@@ -133,9 +133,9 @@
1. 不,他们没有。 编码器和解码器都必须在功能上对称,但是它们的内部结构也可以不同。
2. 没有; 输入信息的一部分在转换过程中丢失,而其余部分则在代码输出`Y`和自编码器变量之间分配,该变量与基础模型一起对所有转换进行编码。
3. *min(sum(z [i] ))= 0 和 min(sum( z [i]* *))= 128* 时,等于 36 的总和既可以表示稀疏(如果标准偏差较大),也可以表示具有较小值的均匀分布(当标准偏差接近零时)。
4. *sum(z [i] )= 36 时,* a *std(z [i] )= 0.03* 意味着大多数值都围绕 0.28 *(0.25÷0.31)*,该代码可以视为密集代码。
5. 没有; 一个 Sanger 网络(以及 Rubner-Tavan 网络)需要输入样本 *x [i] ∈X*
3.`min(sum(z[i]))= 0``min(sum(z[i]))= 128`时,等于 36 的总和既可以表示稀疏(如果标准偏差较大),也可以表示具有较小值的均匀分布(当标准偏差接近零时)。
4.`sum(z[i]) = 36`时,`std(z[i]) = 0.03`意味着大多数值都围绕`0.28 * (0.25÷0.31)`,该代码可以视为密集代码。
5. 没有; 一个 Sanger 网络(以及 Rubner-Tavan 网络)需要输入样本`x[i] ∈X`
6. 从最大特征值到最小特征值(即从第一个主成分到最后一个主成分)以降序提取成分。 因此,无需进一步分析来确定其重要性。
7. 是; 从最后一层开始,可以对每个内部层的值进行采样,直到第一层为止。 通过选择每个概率向量的`argmax(·)`获得最可能的输入值。
......@@ -148,11 +148,11 @@
1. 没有; 生成器和判别器在功能上是不同的。
2. 不,不是这样,因为判别器的输出必须是一个概率(即 *p [i] ∈`(0, 1)`*)。
2. 不,不是这样,因为判别器的输出必须是一个概率(即`p[i] ∈ (0, 1)`)。
3. 是; 这是正确的。 判别器可以学习非常快地输出不同的概率,,其损失函数的斜率可以变得接近于 0,从而减小了提供给生成器的校正反馈的幅度。
4. 是; 通常会比较慢。
5. 评论者比较慢,因为每次更新后都会对变量进行裁剪。
6. 由于支撑脱节,Jensen-Shannon 散度等于 *log(2)*
6. 由于支撑脱节,Jensen-Shannon 散度等于`log(2)`
7. 目标是开发高度选择性的单元,其响应仅由特定功能集引起。
8. 在训练过程的早期阶段,不可能知道最终的组织。 因此,强制某些单元的过早专业化不是一个好习惯。 调整阶段允许许多神经元成为候选神经元,与此同时,逐渐增加最有前途的神经元(将成为赢家)的选择性。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册