[第 4 章](04.html"Chapter 4. Making Sense of Data through Advanced Visualization")和*通过高级可视化*来了解数据,教您如何创建不同的数据可视化。 可视化是数据科学不可或缺的一部分; 它有助于传达无法通过查看原始数据看到的模式或关系。
第 5 章和*揭露机器学习*,向您介绍机器学习的不同技术以及如何应用它们。 机器学习是业界新的流行语。 它用于 Google 的无人驾驶汽车等活动,并预测营销活动的有效性。
[第 6 章](06.html"Chapter 6. Performing Predictions with a Linear Regression")和*使用线性回归*执行预测可帮助您建立简单的回归模型,然后建立多个回归模型以及测试模型有效性的方法。 线性回归是当今业界用于模型构建的最流行技术之一。
[第 12 章](12.html"Chapter 12. Leveraging Python in the World of Big Data")和*在大数据世界中利用 Python* 在本章中教您将 Hadoop 和 Spark 与 Python 一起使用来处理数据。 随着数据规模的不断增长,已经出现了大数据技术来处理此类数据。
在此示例中,回归算法尝试创建前面的方程,该方程在预测学生的体重时具有最小的误差。 这是一个简单的线性回归的例子。 在[第 6 章](06.html"Chapter 6. Performing Predictions with a Linear Regression")和*用线性回归*执行预测中,我们将进一步讨论具有多个变量的线性回归的概念。
我们将使用 Titanic 数据集,该数据集在[第 3 章](03.html"Chapter 3. Finding a Needle in a Haystack")和*在干草堆中查找针*中使用,以帮助我们建立逻辑回归模型。 由于我们已经探索了数据,因此我们将不进行任何探索性数据分析,因为我们已经有了该数据的上下文。
从前面的图中可以看出,在`0`和`1`的概率附近密度较高,这是一个好兆头,表明该模型能够根据给定的数据预测某些模式。 这也表明密度是最高的,接近 0,这意味着很多人无法生存。 这证明了我们在[第 3 章](03.html"Chapter 3. Finding a Needle in a Haystack")和*在干草堆中寻找针头*中执行的分析。
正如我将在[第 1 章](01.html#CCNA1-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 1. Perspectives on Data Science from a Developer")和*来自开发人员*的数据科学观点中更详细地解释的那样,我首先是拥有 20 多年开发经验的开发人员,他在构建以下方面的软件方面有丰富的经验 多样化的性质; 前端,后端,中间件等。 回顾这段时间,我意识到,正确地执行算法有多少是我首先想到的事情。 数据始终是别人的问题。 我很少需要分析它或从中提取见解。 充其量,我正在设计正确的数据结构以某种方式加载它,这将使我的算法更有效地运行并且代码更优雅且可重复使用。
[第 1 章](01.html#CCNA1-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 1. Perspectives on Data Science from a Developer"),*开发人员对数据科学的观点*,我尝试通过我自己的经验来定义数据科学,并建立一个数据管道来在 Twitter 上执行情感分析 帖子。 我认为这是一项团队运动,并且在大多数情况下,数据科学团队和工程团队之间存在孤岛,这会导致不必要的摩擦,效率低下,最终导致无法充分发挥其潜力。 我还认为,数据科学将继续存在,并最终将成为当今所谓的计算机科学不可或缺的一部分(我想有一天会有新术语出现,例如*计算机 数据科学*更好地捕捉了这种双重性)。
[第 7 章](07.html#1FLS42-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 7. Big Data Twitter Sentiment Analysis"),*大数据 Twitter 情感分析*,我谈到在 Twitter 规模上进行自然语言处理。 在本章中,我将展示如何使用 IBM Watson Natural Language 了解基于云的服务对推文进行情感分析。 这非常重要,因为它提醒读者,重用托管托管服务而不是内部构建功能有时可能是一个有吸引力的选择。
第 7 章,*大数据 Twitter 情感分析*,我谈到在 Twitter 规模上进行自然语言处理。 在本章中,我将展示如何使用 IBM Watson Natural Language 了解基于云的服务对推文进行情感分析。 这非常重要,因为它提醒读者,重用托管托管服务而不是内部构建功能有时可能是一个有吸引力的选择。
**第 4 部分*:使用在[第 8 章](08.html#1MBG22-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 8. Financial Time Series Analysis and Forecasting")和*金融时间序列分析和预测*中学习的技术,建立用于预测航班延误的 ARIMA 模型
下图概括了一种方法,我将其称为**切换模式**,其中数据科学团队构建分析并将结果部署在数据接口层中。 然后,结果将由应用程序使用。 数据层通常由数据工程师处理,这是我们在[第 1 章](01.html#CCNA1-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 1. Perspectives on Data Science from a Developer")和*开发人员对数据科学的观点*中讨论的角色之一:
**注意**:我们将在[第 4 章](04.html#147LC1-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 4. Deploying PixieApps to the Web with the PixieGateway Server")和*中使用 PixieGateway 服务器*将 PixieApps 部署到 Web 上,详细介绍 PixieGateway,包括如何在本地安装新实例 并在云上。
使用[第 2 章](02.html#PNV62-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 2. Data Science at Scale with Jupyter Notebooks and PixieDust")和*借助 Jupyter Notebook 和 PixieDust 进行大规模数据科学的示例,*让我们加载汽车性能数据集并使用`display()`创建图表:
在以下 PixieDust 表的屏幕截图中,我们使用[第 2 章](02.html#PNV62-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 2. Data Science at Scale with Jupyter Notebooks and PixieDust"), *Data Science with Jupyter Notebook 和 PixieDust* 中描述的**过滤器**按钮来访问 每个数据库中可用的数据集计数的统计信息,例如,最小值,最大值和平均值:
在[第 8 章](08.html#1MBG22-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 8. Financial Time Series Analysis and Forecasting"),*金融时间序列分析和预测*中,我们使用时间序列分析建立了预测金融股票的预测模型。 实际上,我们可以在航班延误中使用相同的技术,因为毕竟我们还在这里处理时间序列,因此在本节中,我们将遵循完全相同的步骤。 对于每个目的地机场和可选航空公司,我们将构建一个熊猫 DataFrame,其中包含匹配的航班信息。
**注意**:我们将再次使用`statsmodels`库。 如果尚未安装,请确保进行安装,有关更多信息,请参考[第 8 章](08.html#1MBG22-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 8. Financial Time Series Analysis and Forecasting"),*金融时间序列分析和预测*。
从前面的图表中,我们可以假设数据具有趋势和/或季节性,并且不稳定。 使用我们在[第 8 章](08.html#1MBG22-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 8. Financial Time Series Analysis and Forecasting"),*金融时间序列分析和预测*中介绍的对数差异技术,对序列进行转换并使用 PixieDust `display()`方法将其可视化,如 以下代码:
在[第 1 章](01.html#CCNA1-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 1. Perspectives on Data Science from a Developer"),*开发人员对数据科学的观点*的开头,我使用了 Drew's Conway Venn 图(这是我的最爱之一)来表示什么是数据科学。 以及为什么数据科学家被广泛认为是独角兽。 考虑到 Drew Conway 的所有方面,我想扩展此图,以表示开发人员在数据科学领域的重要且不断增长的作用,如下图所示:
这是我非常喜欢的部分,因为我无需表达准确性就可以表达前瞻性意见,因为根据定义,这些只是我的观点![Forward thinking – what to expect for AI and data science](img/00259.jpeg)。
正如我在[第 1 章](01.html#CCNA1-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 1. Perspectives on Data Science from a Developer"),*开发人员对数据科学的观点*中所解释的那样,我相信 AI 和数据科学将继续存在,它们将继续对现有行业造成破坏。 在可预见的未来,最有可能以加速的速度发展。 这肯定会影响工作的总数,并且类似于我们过去看到的其他技术革命(农业,工业,信息等),有些将消失,而新的将被创造。
正如我在第 1 章,*开发人员对数据科学的观点*中所解释的那样,我相信 AI 和数据科学将继续存在,它们将继续对现有行业造成破坏。 在可预见的未来,最有可能以加速的速度发展。 这肯定会影响工作的总数,并且类似于我们过去看到的其他技术革命(农业,工业,信息等),有些将消失,而新的将被创造。
2016 年,IBM 董事长兼首席执行官 Ginny Rometty 在[致唐纳德·特朗普总统的一封信](https://www.ibm.com/blogs/policy/ibm-ceo-ginni-romettys-letter-u-s-president-elect)中,讨论了通过创建她称为“新领”的新型工作来更好地为 AI 革命做准备的需要,如以下摘录所示:
如果我们成功地实现了数据科学的民主化,那么这些“新领子”工作就只能创造足够的数量,因为数据科学是 AI 的命脉,每个人都需要以某种能力参与进来; 开发人员,业务线用户,数据工程师等。 不难想象,对这些新型工作的需求将如此之大,以至于传统的学术途径将无法满足需求。 相反,该行业将有责任通过制定旨在重新培训所有可能面临裁员风险的现有工人的新计划来填补这一空白。 将会出现[类似于 Apple 的 *Everyone Can Code* 程序的新程序](https://www.apple.com/everyone-can-code); 也许像*之类的任何人都可以做数据科学*。 我还认为 **MOOC**(**大规模开放在线课程**的缩写)将发挥更大的作用,今天,由于主要 MOOC 参与者之间建立了许多合作关系, 例如 Coursera 和 edX,以及像 IBM 这样的公司(请参阅[这个页面](https://www.coursera.org/ibm))。
公司还可以做其他事情,以便更好地为 AI 和数据科学革命做准备。 在[第 1 章](01.html#CCNA1-6bf9b9b4cfde46e3ba53bd8d61355763"Chapter 1. Perspectives on Data Science from a Developer")和*开发人员对数据科学的观点*中,我讨论了数据科学策略的三个支柱,它们可以帮助我们实现这一宏伟的目标:数据 ,服务和工具。
公司还可以做其他事情,以便更好地为 AI 和数据科学革命做准备。 在第 1 章和*开发人员对数据科学的观点*中,我讨论了数据科学策略的三个支柱,它们可以帮助我们实现这一宏伟的目标:数据 ,服务和工具。
在服务方面,公有云的高速增长在很大程度上促进了多个领域的高质量服务的整体增长:数据持久性,认知,流传输等。 亚马逊,Facebook,谷歌,IBM 和 Microsoft 等提供商在以服务为先的方法以及强大的平台支持下为服务开发者提供一致体验的创新能力建设中发挥着领导作用。 随着越来越多的强大服务以越来越快的速度发布,这一趋势将继续加速。