提交 19076a12 编写于 作者: W wizardforcel

2020-09-16 16:12:20

上级 ec0bca86
......@@ -224,7 +224,7 @@ g=sns.heatmap(data[top_corr_features].corr(),annot=True,cmap="RdYlGn")
根据最近在《福布斯》杂志上进行的调查,数据科学家将其 80%的时间用于数据准备:
![https://miro.medium.com/max/1200/0*-dn9U8gMVWjDahQV.jpg](img/B15441_04_04.png)
![](img/B15441_04_04.png)
图 4:数据科学家花费的时间细分(来源:《福布斯》)
......
......@@ -23,7 +23,7 @@
现在我们了解了决策树的基本概念,接下来要了解的概念是如何自动构建决策树。 我们需要可以根据数据构造最佳树的算法。 为了理解它,我们需要了解熵的概念。 在本文中,熵是指信息熵,而不是热力学熵。 信息熵基本上是不确定性的量度。 决策树的主要目标之一是减少从根节点到叶节点的不确定性。 当我们看到未知的数据点时,我们将完全不确定输出。 到叶子节点时,我们就可以确定输出了。 这意味着需要以减少每个级别的不确定性的方式构造决策树。 这意味着我们在沿着树前进时需要减少熵。
您可以在[上了解有关的更多信息,网址为 https://prateekvjoshi.com/2016/03/22/how-are-decision-trees-constructed-in-machine-learning](https://prateekvjoshi.com/2016/03/22/how-are-decision-trees-constructed-in-machine-learning)
您可以在[这里](https://prateekvjoshi.com/2016/03/22/how-are-decision-trees-constructed-in-machine-learning)了解有关的更多信息。
## 建立决策树分类器
......
......@@ -61,7 +61,7 @@ $ pip3 install cvxopt
$ pip3 install timeseries
```
如果在安装`cvxopt`时出错,则可以在 [http://cvxopt.org/install](http://cvxopt.org/install) 上找到进一步的说明。 假设您已经成功安装了 pac kages,让我们继续进行下一部分,在此我们将研究如何通过和 Pandas 处理时间序列数据。
如果在安装`cvxopt`时出错,则可以在[这个页面](http://cvxopt.org/install)上找到进一步的说明。 假设您已经成功安装了 pac kages,让我们继续进行下一部分,在此我们将研究如何通过和 Pandas 处理时间序列数据。
# 使用熊猫处理时间序列数据
......@@ -493,9 +493,7 @@ plt.show()
*X(i)= [0.10 0.70 0.20]*
下一步是计算矩阵的立方。 在线提供了许多工具来执行矩阵运算,例如:
[http://matrix.reshish.com/multiplication.php](http://matrix.reshish.com/multiplication.php )
下一步是计算矩阵的立方。 在线提供了许多工具来执行矩阵运算,[例如这里](http://matrix.reshish.com/multiplication.php)
如果您进行了所有矩阵计算,那么您将看到在星期四将获得以下概率:
......
......@@ -29,9 +29,7 @@
**自动图像分类** –我们可以在 Google 相册中以及在将图像上传到 Facebook 以及查看 Facebook 如何向我们提供有关图像中人物的建议时看到的第一手示例。
**反向图像搜索** – Google 除其他功能外,还提供功能,您可以将图像用作输入,而不是使用关键字作为输入并获取图像,而 Google 可以猜测 图片包含。 您可以在这里尝试:
[httpsimg.google.com/](httpsimg.google.com/ )
**反向图像搜索** – Google 除其他功能外,还提供功能,您可以将图像用作输入,而不是使用关键字作为输入并获取图像,而 Google 可以猜测 图片包含。 [您可以在这里尝试](httpsimg.google.com/)
**光学字符识别** –将 图像转换为文本非常依赖于图像识别。
......@@ -47,11 +45,11 @@ OpenCV 可以与 TensorFlow,PyTorch 和 Caffe 结合使用。
**安装**
在本章中,我们将使用名为 OpenCV 的软件包。 您可以在此处了解更多信息: [http://opencv.org](http://opencv.org) 。 在继续操作之前,请确保已安装。 以下是在各种操作系统上使用 Python 3 安装 OpenCV 3 的链接:
在本章中,我们将使用名为 OpenCV 的软件包。 [您可以在此处了解更多信息](http://opencv.org)。 在继续操作之前,请确保已安装。 以下是在各种操作系统上使用 Python 3 安装 OpenCV 3 的链接:
* **Windows**[https://solarianprogrammer.com/2016/09/17/install-opencv-3-with-python-3-on-windows](https://solarianprogrammer.com/2016/09/17/install-opencv-3-with-python-3-on-windows )
* **Ubuntu**[http://www.pyimagesearch.com/2015/07/20/install-opencv-3-0-and-python-3-4-on-ubuntu](http://www.pyimagesearch.com/2015/07/20/install-opencv-3-0-and-python-3-4-on-ubuntu )
* **Mac**[http://www.pyimagesearch.com/2015/06/29/install-opencv-3-0-and-python-3-4-on-osx](http://www.pyimagesearch.com/2015/06/29/install-opencv-3-0-and-python-3-4-on-osx )
* [**Windows**](https://solarianprogrammer.com/2016/09/17/install-opencv-3-with-python-3-on-windows)
* [**Ubuntu**](http://www.pyimagesearch.com/2015/07/20/install-opencv-3-0-and-python-3-4-on-ubuntu)
* [**Mac**](http://www.pyimagesearch.com/2015/06/29/install-opencv-3-0-and-python-3-4-on-osx)
现在您已经安装了它,让我们转到下一部分,我们将讨论帧差异分段。
......@@ -198,9 +196,7 @@ if __name__=='__main__':
# 使用颜色空间跟踪对象
可以使用各种色彩空间来表示图像。 RGB 颜色空间可能是最流行的颜色空间,但不适用于对象跟踪之类的应用程序。 因此,我们将改用 HSV 颜色空间。 这是一种直观的色彩空间模型,更接近于人类对色彩的感知方式。 您可以在此处了解更多信息:
[https://zh.wikipedia.org/wiki/HSL_and_HSV](https://en.wikipedia.org/wiki/HSL_and_HSV)
可以使用各种色彩空间来表示图像。 RGB 颜色空间可能是最流行的颜色空间,但不适用于对象跟踪之类的应用程序。 因此,我们将改用 HSV 颜色空间。 这是一种直观的色彩空间模型,更接近于人类对色彩的感知方式。 [您可以在此处了解更多信息](https://en.wikipedia.org/wiki/HSL_and_HSV)
我们可以将捕获的帧从 RGB 转换为 HSV 颜色空间,然后使用颜色阈值跟踪任何给定的对象。 我们应该注意,我们需要知道对象的颜色分布,以便为阈值选择合适的范围。
......@@ -473,9 +469,7 @@ if __name__=='__main__':
为此,我们基于该区域的颜色直方图选择一组点,然后计算质心。 如果此质心的位置在该区域的几何中心,则我们知道该对象没有移动。 但是,如果质心的位置不在此区域的几何中心,则我们知道对象已移动。 这意味着我们还需要移动封闭边界。 质心的运动直接指示物体的运动方向。 我们需要移动边界框,以使新质心成为此边界框的几何中心。 我们对每一帧都保持这种状态,并实时跟踪对象。 因此,此算法称为均值平移,因为均值(即质心)一直在移动,我们使用此跟踪对象。
让我们看看这与 CAMShift 有何关系。 均值平移的问题之一是不允许对象的大小随时间变化。 绘制边界框后,无论物体离相机有多近,它都将保持不变。 因此,我们需要使用 CAMShift,因为它可以使边界框的大小适应于对象的大小。 如果您想进一步探索,可以查看以下链接:
[http://docs.opencv.org/3.1.0/db/df8/tutorial_py_meanshift.html](http://docs.opencv.org/3.1.0/db/df8/tutorial_py_meanshift.html )
让我们看看这与 CAMShift 有何关系。 均值平移的问题之一是不允许对象的大小随时间变化。 绘制边界框后,无论物体离相机有多近,它都将保持不变。 因此,我们需要使用 CAMShift,因为它可以使边界框的大小适应于对象的大小。 如果您想进一步探索,[可以查看以下链接](http://docs.opencv.org/3.1.0/db/df8/tutorial_py_meanshift.html)
让我们看看如何构建跟踪器。
......@@ -804,9 +798,7 @@ if __name__ == '__main__':
多年来,用计算机制作逼真的面孔非常困难,但好莱坞及其特效艺术家终于破解了密码。 显然,他们正在使用比本章将介绍的技术更复杂的技术,但是光流技术是开始实现此功能的基础技术。 您必须能够在视频移动的任何时刻跟踪该人的脸,然后才能在视频中更改该人的脸。 这是光流可以解决的问题之一。
光流是计算机视觉中使用的一种流行技术。 它使用图像特征点来跟踪对象。 在实时视频的连续帧中跟踪各个特征点。 当我们在给定帧中检测到一组特征点时,我们将计算位移向量以对其进行跟踪。 我们显示了连续帧之间这些特征点的运动。 这些向量被称为运动向量。 有许多方法可以执行光流,但是 **Lucas-Kanade** 方法可能是最受欢迎的方法。 这是描述此技术的原始论文:
[http://cseweb.ucsd.edu/classes/sp02/cse252/lucaskanade81.pdf](http://cseweb.ucsd.edu/classes/sp02/cse252/lucaskanade81.pdf )
光流是计算机视觉中使用的一种流行技术。 它使用图像特征点来跟踪对象。 在实时视频的连续帧中跟踪各个特征点。 当我们在给定帧中检测到一组特征点时,我们将计算位移向量以对其进行跟踪。 我们显示了连续帧之间这些特征点的运动。 这些向量被称为运动向量。 有许多方法可以执行光流,但是 **Lucas-Kanade** 方法可能是最受欢迎的方法。 [这是描述此技术的原始论文](http://cseweb.ucsd.edu/classes/sp02/cse252/lucaskanade81.pdf)
第一步是从当前帧中提取特征点。 对于提取的每个特征点,将以特征点为中心创建一个 3×3 的像素块。 我们假设每个面片中的所有点都具有相似的运动。 该窗口的大小可以根据情况进行调整。
......@@ -1055,9 +1047,7 @@ if __name__ == '__main__':
## 使用 Haar 级联进行对象检测
我们将使用 Haar 级联来检测示例视频中的人脸。 在这种情况下,Haar 级联是指基于 Haar 特征的级联分类器。 *Paul Viola**Michael Jones* 于 2001 年在他们的标志性研究论文中首次提出了这种对象检测方法。您可以在这里查看:
[https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf](https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf )
我们将使用 Haar 级联来检测示例视频中的人脸。 在这种情况下,Haar 级联是指基于 Haar 特征的级联分类器。 *Paul Viola**Michael Jones* 于 2001 年在他们的标志性研究论文中首次提出了这种对象检测方法。[您可以在这里查看](https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf)
他们在论文中描述了一种有效的机器学习技术,可用于检测任何物体。
......@@ -1069,9 +1059,7 @@ if __name__ == '__main__':
让我们看看如何使用它来执行面部检测。 为了构建用于检测人脸的机器学习系统,我们首先需要构建特征提取器。 机器学习算法将使用这些功能来了解人脸。 这就是 Haar 功能变得相关的地方。
它们只是图像上补丁的简单总结和差异。 Haar 功能易于计算。 为了使其具有强大的缩放能力,我们在多种图像尺寸下执行此操作。 如果您想以教程格式了解更多信息,可以查看以下链接:
[http://www.cs.ubc.ca/~lowe/425/slides/13-ViolaJones.pdf](http://www.cs.ubc.ca/~lowe/425/slides/13-ViolaJones.pdf )
它们只是图像上补丁的简单总结和差异。 Haar 功能易于计算。 为了使其具有强大的缩放能力,我们在多种图像尺寸下执行此操作。 如果您想以教程格式了解更多信息,[可以查看以下链接](http://www.cs.ubc.ca/~lowe/425/slides/13-ViolaJones.pdf)
提取特征后,我们将其传递给简单分类器的增强级联。 我们检查图像中的各个矩形子区域,并继续丢弃不包含面部的区域。 我们很高兴迅速得出最终答案。 为了高效地计算这些特征 qu ,他们使用了称为积分图像的概念。
......
......@@ -39,9 +39,7 @@
误差是预测输出与实际输出之间的差。 基于误差有多大,神经网络会自行调整并重新训练,直到其更接近可解度。
足够抽象地思考神经网络。 就像我们在本书中一直在做的那样,是时候动手动手,边做边学。 在本章中,我们将使用名为 **NeuroLab** 的库。 NeuroLab 是库,它实现了基本的神经网络算法。 它具有各种参数,可以对其进行配置。 其界面类似于 **MATLAB** 中的**神经网络工具箱****NNT** )软件包。 该库是基于 NumPy 软件包的。 您可以在以下位置找到有关它的更多信息:
[https://pythonhosted.org/neurolab](https://pythonhosted.org/neurolab )
足够抽象地思考神经网络。 就像我们在本书中一直在做的那样,是时候动手动手,边做边学。 在本章中,我们将使用名为 **NeuroLab** 的库。 NeuroLab 是库,它实现了基本的神经网络算法。 它具有各种参数,可以对其进行配置。 其界面类似于 **MATLAB** 中的**神经网络工具箱****NNT** )软件包。 该库是基于 NumPy 软件包的。 [您可以在以下位置找到有关它的更多信息](https://pythonhosted.org/neurolab)
您可以通过在终端上运行以下命令来安装它:
......@@ -521,9 +519,7 @@ plt.show()
# 使用递归神经网络分析顺序数据
到目前为止,在我们所有的神经网络示例中,一直在使用静态数据。 神经网络也可以有效地用于构建处理顺序数据的模型。 **递归神经网络****RNN** )在建模顺序数据方面非常出色。 您可以在以下位置了解有关递归神经网络的更多信息:
[https://www.jeremyjordan.me/introduction-to-recurrent-neural-networks/](https://www.jeremyjordan.me/introduction-to-recurrent-neural-networks/ )
到目前为止,在我们所有的神经网络示例中,一直在使用静态数据。 神经网络也可以有效地用于构建处理顺序数据的模型。 **递归神经网络****RNN** )在建模顺序数据方面非常出色。 [您可以在以下位置了解有关递归神经网络的更多信息](https://www.jeremyjordan.me/introduction-to-recurrent-neural-networks/)
当我们使用时间序列数据时,我们通常不能使用通用学习模型。 我们需要捕获数据中的时间依赖性,以便可以构建健壮的模型。 让我们看看如何构建它。
......@@ -668,9 +664,7 @@ if __name__=='__main__':
考虑这种情况。 您曾经写下任何东西吗?五分钟后,您无法阅读自己的笔迹? 计算机也总是会出现此问题。 写下数字 *6* 的方法有无数种,其中有些看起来比 *6 更像 *0* 或 *5* 。* 。 我可能是错的,但是我认为我们将找到一种治愈癌症的方法,然后才能找到一种可靠的方法来使计算机识别医生的笔迹。 我们已经可以达到很高的准确性,并且*的笔迹越漂亮*,阅读起来就越容易。 我们继续尝试解决此问题的原因是,这是一个有价值的目标,具有许多应用程序。 举一个简短的例子,医生的时间受到高度重视。 随着系统能够更好地识别他们的笔记,他们将获得更多的精力来专注于实际治疗和帮助患者的精力,而不再关注文书工作。
**光学字符识别****OCR** )是识别图像中手写字符的过程。 在构建模型之前,让我们使熟悉数据集。 我们将使用以下位置提供的数据集:
[http://ai.stanford.edu/~btaskar/ocr](http://ai.stanford.edu/~btaskar/ocr )
**光学字符识别****OCR** )是识别图像中手写字符的过程。 在构建模型之前,让我们使熟悉数据集。 [我们将使用以下位置提供的数据集](http://ai.stanford.edu/~btaskar/ocr)
您将下载一个名为`letter.data`的文件。 为了方便起见,此文件已在代码包中提供给您。 让我们看看如何加载数据并形象化角色。
......
......@@ -21,9 +21,7 @@
总体而言,CNN,尤其是**生成对抗网络**(尤其是 **GAN** ),已经成为新闻。 GAN 是 Ian Goodfellow 及其同事于 2014 年最初开发的一类 CNN。在 GAN 中,两个神经网络在游戏中相互竞争(从博弈论的角度)。 给定一个数据集,GAN 学习创建类似于训练集的新数据示例。 例如,速度可能会有些慢,但是有一个网站会产生不存在的人的面孔。
我们将让您的想象力疯狂起来,但是使用其中一些生成的“人类”在电影中出演肯定可以制作一部电影。 还有其他研究试图解决这一问题。 给定一个图像,我们可以确定它是 GAN 生成的图像还是真实的人? 您可以在此处浏览该网站:
[https://thispersondoesnotexist.com/](https://thispersondoesnotexist.com/ )
我们将让您的想象力疯狂起来,但是使用其中一些生成的“人类”在电影中出演肯定可以制作一部电影。 还有其他研究试图解决这一问题。 给定一个图像,我们可以确定它是 GAN 生成的图像还是真实的人? [您可以在此处浏览该网站](https://thispersondoesnotexist.com/)
要使用它,只需继续刷新页面,它将每次生成一个新图像。 GAN 最初是作为无监督学习的生成模型而创建的。 GAN 还被证明可用于半监督学习,监督学习和强化学习。 AI 的巨头之一 Yann LeCun 称 GAN *是 ML* [1]中最近十年中最有趣的想法。 让我们考虑 GAN 的其他一些用例和应用程序。
......@@ -101,9 +99,7 @@ CNN 通常使用以下类型的层:
**输入层** –此层直接获取原始图像数据。
**卷积层** –此层计算神经元与输入中各种贴片之间的卷积。 如果您需要快速了解图像卷积,可以查看以下链接:
[http://web.pdx.edu/~jduh/courses/Archive/geog481w07/Students/Ludwig_ImageConvolution.pdf](http://web.pdx.edu/~jduh/courses/Archive/geog481w07/Students/Ludwig_ImageConvolution.pdf )
**卷积层** –此层计算神经元与输入中各种贴片之间的卷积。 如果您需要快速了解图像卷积,[可以查看以下链接](http://web.pdx.edu/~jduh/courses/Archive/geog481w07/Students/Ludwig_ImageConvolution.pdf)
卷积层基本上计算权重和前一层输出中的一个小补丁之间的点积。
......@@ -123,9 +119,7 @@ CNN 通常使用以下类型的层:
在建立 CNN 之前,让我们为基础建立一个更基本的模型,并了解如何使用 CNN 进行改进。 在本节中,我们将看到如何使用感知器构建线性回归模型。 在前面的章节中我们已经看到了线性回归,但是本节是关于使用神经网络方法构建线性回归模型的。
我们将在本章中使用 TensorFlow。 这是一个流行的深度学习软件包,已广泛用于构建各种实际系统。 在本节中,我们将熟悉其工作原理。 在继续操作之前,请确保已安装它。 可以在这里找到安装说明:
[https://www.tensorflow.org/get_started/os_setup](https://www.tensorflow.org/get_started/os_setup )
我们将在本章中使用 TensorFlow。 这是一个流行的深度学习软件包,已广泛用于构建各种实际系统。 在本节中,我们将熟悉其工作原理。 在继续操作之前,请确保已安装它。 [可以在这里找到安装说明](https://www.tensorflow.org/get_started/os_setup)
确认已安装后,创建一个新的 Python 文件并导入以下软件包:
......@@ -667,4 +661,4 @@ print('Test accuracy =', accuracy.eval(feed_dict = {
# 参考
1. Yann LeCun 对有关 Quora 的问题的答复: [https://www.quora.com/What-are-some-recent-and-potentially-upcoming-breakthroughs-in-deep-learning](https://www.quora.com/What-are-some-recent-and-potentially-upcoming-breakthroughs-in-deep-learning)
\ No newline at end of file
1. [Yann LeCun 对有关 Quora 的问题的答复](https://www.quora.com/What-are-some-recent-and-potentially-upcoming-breakthroughs-in-deep-learning)
\ No newline at end of file
......@@ -40,7 +40,7 @@ RNN 背后的数学有时可能会令人不知所措。 在深入研究 RNN 之
步进功能是简单功能。 就这么简单。 如果输出高于某个阈值,则会触发该函数。 否则就不会。 图形化:
![https://miro.medium.com/max/600/1*0iOzeMS3s-3LTU9hYH9ryg.png](img/B15441_21_01.png)
![](img/B15441_21_01.png)
图 1:单位步进功能
......@@ -52,7 +52,7 @@ RNN 背后的数学有时可能会令人不知所措。 在深入研究 RNN 之
S 型函数(也称为作为逻辑函数)定义如下:
![https://miro.medium.com/max/500/1*MIeka59unAhS7MQk5e7FOg.png](img/B15441_21_02.png)
![](img/B15441_21_02.png)
图 2:S 形函数
......@@ -84,7 +84,7 @@ S 型函数(也称为作为逻辑函数)定义如下:
图形上看起来像这样:
![https://miro.medium.com/max/446/1*njuH4XVXf-l9pR_RorUOrA.png](img/B15441_21_04.png)
![](img/B15441_21_04.png)
图 4:ReLU 功能
......
......@@ -75,15 +75,13 @@ RL 系统可以同时执行多个事情–通过执行试错搜索来学习,
# 创建环境
我们将使用名为 **OpenAI Gym** 的程序包来构建 RL 代理。 您可以在此处了解更多有关的信息: [https://gym.openai.com](https://gym.openai.com) 。 可以通过运行以下命令使用`pip`进行安装:
我们将使用名为 **OpenAI Gym** 的程序包来构建 RL 代理。 [您可以在此处了解更多有关的信息](https://gym.openai.com)。 可以通过运行以下命令使用`pip`进行安装:
```py
$ pip3 install gym
```
您可以在此处找到与其安装相关的各种提示和技巧:
[https://github.com/openai/gym#installation](https://github.com/openai/gym#installation)
[您可以在此处找到与其安装相关的各种提示和技巧](https://github.com/openai/gym#installation)
现在您已经安装了它,让我们继续编写一些代码。
......
......@@ -89,13 +89,9 @@ Google 提供这些答案的基本技术之一就是通常所说的大数据。
将典型库中包含的信息与 Google Universe 中包含的数据进行比较,我们很快就会意识到反对索引而不是原始数据的重要性。
Google 的工作方式与图书馆卡目录类似,不同之处在于 Google 的“目录”或索引包含指向大量网页的指针,并且比本地图书馆目录中的索引大得多。 根据 Google 自己的文档,他们承认其索引至少为 100 PB,并且可能是该索引的许多倍。 更多信息可以在这里找到:
Google 的工作方式与图书馆卡目录类似,不同之处在于 Google 的“目录”或索引包含指向大量网页的指针,并且比本地图书馆目录中的索引大得多。 根据 Google 自己的文档,他们承认其索引至少为 100 PB,并且可能是该索引的许多倍。 [更多信息可以在这里找到](https://www.google.com/search/howsearchworks/crawling-indexing/)
[https://www.google.com/search/howsearchworks/crawling-indexing/](https://www.google.com/search/howsearchworks/crawling-indexing/ )
如果您好奇的话,这里有一个很酷的网站,它将为您提供有关被索引的网页数量的实时估计。 试试看:
[http://www.worldwidewebsize.com/](http://www.worldwidewebsize.com/ )
如果您好奇的话,这里有一个很酷的网站,它将为您提供有关被索引的网页数量的实时估计。 [试试看](http://www.worldwidewebsize.com/)
## 排名
......@@ -116,9 +112,7 @@ Google 的工作方式与图书馆卡目录类似,不同之处在于 Google
无论如何,当您向 Google 提交查询时,智能网络路由器都会将您的搜索查询扩展到距离您最近的且可用于执行搜索的数据中心。
更多信息可以在这里找到:
[https://netvantagemarketing.com/blog/how-does-google-return-results-so-damn-fast/](https://netvantagemarketing.com/blog/how-does-google-return-results-so-damn-fast/ )
[更多信息可以在这里找到](https://netvantagemarketing.com/blog/how-does-google-return-results-so-damn-fast/)
## 分布式查找
......@@ -181,9 +175,7 @@ Google 的工作方式与图书馆卡目录类似,不同之处在于 Google
* 每天 4.21 亿状态更新
* 每天上传 1.95 亿张图片
如今,Facebook 对其指标的要求越来越严格,因此很难获得最新的统计数据。 有关 Facebook 流量和其他热门网站的更多有趣统计信息,请参见以下网址:
[http://thesocialskinny.com/100-social-media-statistics-for-2012/](http://thesocialskinny.com/100-social-media-statistics-for-2012/ )
如今,Facebook 对其指标的要求越来越严格,因此很难获得最新的统计数据。 有关 Facebook 流量和其他热门网站的更多有趣统计信息,[请参见以下网址](http://thesocialskinny.com/100-social-media-statistics-for-2012/)
当涉及到数据时,Facebook 必须将其摄取,处理,索引,存储,然后再进行检索。 这些数字会略有不同,具体取决于您相信的来源以及数据的最新程度。 Facebook 最近由于政治原因而成为新闻。 忘记周围的所有争论。 您能想象他们手头上存在的技术问题,根据我们上面描述的数量和速度来确定图像是否令人反感,有争议,政治,真实或不真实等等。
......@@ -221,9 +213,7 @@ Google 的工作方式与图书馆卡目录类似,不同之处在于 Google
一个具体的例子是 Amazon 复杂的欺诈检测算法。 抓获欺诈行为的案例非常重要。 理想情况下,他们希望在发生之前将其捕获。 考虑到其交易量,许多检查需要同时进行。 有趣的是,在某些情况下,Amazon 不会尝试最小化欺诈数量,而是选择最大化客户满意度和服务可用性。 例如,当人们使用预付卡时,AWS 服务中发生的许多欺诈行为都会发生。 一种最小化欺诈的简单解决方案是禁止使用预付卡,但亚马逊仍然接受这种付款方式,取而代之的是,即使用户选择使用此付款方式,亚马逊也敦促其数据科学家提出最小化欺诈的解决方案。
在欺诈这个话题上,有趣的是,亚马逊在其 2019 年 re:Invent 会议上宣布了一项名为 **Fraud Detector** 的新服务。 它使用了与 Amazon 用来捕获欺诈的相同技术,并允许该服务的用户在自己的操作和交易中防止欺诈。 有关服务的更多信息,可以在这里找到:
[https://aws.amazon.com/fraud-detector/](https://aws.amazon.com/fraud-detector/ )
在欺诈这个话题上,有趣的是,亚马逊在其 2019 年 re:Invent 会议上宣布了一项名为 **Fraud Detector** 的新服务。 它使用了与 Amazon 用来捕获欺诈的相同技术,并允许该服务的用户在自己的操作和交易中防止欺诈。 有关服务的更多信息,[可以在这里找到](https://aws.amazon.com/fraud-detector/)
在前面的部分中,我们了解了大数据技术本身是如何强大的。 本节的重点是要理解机器学习是大数据集群可以成功进行并以大规模并行方式处理的工作负载之一。 许多大数据堆栈(例如 Hadoop 堆栈)具有内置的机器学习组件(例如 Mahout),但是我们不限于仅使用这些组件来训练机器学习模型。 这些堆栈可以与其他同类最佳的 ML 库结合使用,例如 Scikit-Learn,Theano,Torch,Caffe 和 TensorFlow。 现在我们已经讨论了大数据如何帮助我们创建机器学习模型,让我们进一步了解一些当今最流行的大 数据工具。
......@@ -333,13 +323,7 @@ Impala 可以轻松与 Hadoop 集成,并支持 MapReduce,Apache Hive 和 Apa
* 使用 Apache Sentry 的细粒度,基于角色的授权
* 使用 Apache Hive 中的元数据,ODBC 驱动程序和 SQL 语法
有关 Impala 及其历史的更多信息,可以在 Impala 文档中找到:
[https://impala.apache.org/](https://impala.apache.org/ )
以及这里:
[https://zh.wikipedia.org/wiki/Apache_Impala](https://en.wikipedia.org/wiki/Apache_Impala )
有关 Impala 及其历史的更多信息,[可以在 Impala 文档中找到](https://impala.apache.org/)[以及这里](https://en.wikipedia.org/wiki/Apache_Impala)
现在,让我们分析另一个可以大大增强大型数据集处理能力的重要技术。 现在,我们将尝试了解什么是 NoSQL 数据库。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册