2.2.

7ae2ade0 · wizardforcel · c2337710 · 7ae2ade0 · 7ae2ade0
隐藏空白更改
内联并排

Showing with 22 addition and 1 deletion

2.2.md 2.2.md +22 -1

img/2-2-8.png img/2-2-8.png +0 -0

未找到文件。
--- a/2.2.md
+++ b/2.2.md
@@ -18,7 +18,7 @@

 > 分类的一个很好的例子是，判断贷款申请人是不是骗子。

-> 最终，出借人想要知道，它们是否应该贷给借款人，以及它们拥有一些容差，用于抵抗申请人的确是骗子的风险。这里，对数几率回归的目标就是计算申请人是骗子的概率（0%~100%）。使用这些概率，我们可以设定一些阈值，我们愿意借给高于它的借款人，对于低于它的借款人，我们拒绝他们的贷款申请，或者标记它们以便后续观察。
+> 最终，出借人想要知道，它们是否应该贷给借款人，以及它们拥有一些容忍度，用于抵抗申请人的确是骗子的风险。这里，对数几率回归的目标就是计算申请人是骗子的概率（0%~100%）。使用这些概率，我们可以设定一些阈值，我们愿意借给高于它的借款人，对于低于它的借款人，我们拒绝他们的贷款申请，或者标记它们以便后续观察。

 虽然对数几率回归通常用于二元分类，其中只存在两个类，要注意，分类可以拥有任意数量的类（例如，为手写数字分配 0~9 的标签，或者使用人脸识别来检测 Fackbook 图片中是哪个朋友）。

@@ -71,3 +71,24 @@
 对率回归模型的输出，就像 S 型曲线，基于`X`的值展示了`P(Y=1)`。

 ![](img/2-2-7.png)
+
+为了预测`Y`标签，是不是垃圾邮件，有没有癌症，是不是骗子，以及其他，你需要（为正的结果）设置一个概率截断值，或者叫阈值（不是）。例如，如果模型认为，邮件是垃圾邮件的概率高于 70%，就将其标为垃圾。否则就不是垃圾。
+
+这个阈值取决于你对假阳性（误报）和假阴性（漏报）的容忍度。如果你在诊断癌症，你对假阴性有极低的容忍度，因为如果病人有极小的几率得癌症，你都需要进一步的测试来确认。所以你需要为正向结果设置一个很低的阈值。
+
+另一方面，在欺诈性贷款申请的例子中，假阳性的容忍度更高，也别是对于小额贷款，因为进一步的审查开销很大，并且小额贷款不值得额外的操作成本，以及对于非欺骗性的申请者来说是个障碍，它们正在等待进一步的处理。
+
+### 对数几率回归的最小损失
+
+就像线性回归的例子那样，我们使用梯度下降来习得使损失最小的`beta`参数。
+
+在对率回归中，成本函数是这样的度量，当真实答案是`0`时，你有多么经常将其预测为 1，或者反过来。下面是正则化的成本函数，就像我们对线性回归所做的那样。
+
+![](img/2-2-8.png)
+
+当你看到像这样的长式子时，不要惊慌。将其拆成小部分，并从概念上思考每个部分都是什么。之后就能理解了。
+
+第一个部分是数据损失，也就是，模型预测值和实际值之间有多少差异。第二个部分就是正则损失，也就是，我们以什么程度，惩罚模型的较大参数，它过于看重特定的特征（要记得，这可以阻止过拟合）。
+
+我们使用低度下降，使损失函数最小，就是像上面这样。我们构建了一个对数几率回归模型，来尽可能准确地预测分类。
+
--- a/img/2-2-8.png
+++ b/img/2-2-8.png