00.md 1.8 KB
Newer Older
W
wizardforcel 已提交
1
# 零、本书的目的
W
wizardforcel 已提交
2 3 4 5 6 7 8 9 10 11

*HDInsight 简洁地*旨在向读者介绍 HDInsight 平台的一些核心概念,并解释如何使用它提供的一些工具来处理数据。这将通过对大量非结构化文本数据执行简单的情感分析过程来证明。

这本书是从一个有经验的商业智能专业人士的角度写的,因此,这本书的一部分重点是翻译这些术语中的 Hadoop 概念,以及将 Hadoop 工具翻译成更熟悉的语言,如结构化查询语言(SQL)和多维表达式(MDX)。理解这本书不需要任何一种语言的经验,但是对于那些扎根于关系数据世界的人来说,这些语言的经验将有助于理解它的内容。

在本书的整个过程中,将展示以下特性:

*   在 Azure 上设置和管理 HDInsight 集群
*   使用 Azure Blob 存储来存储输入和输出数据
*   了解 PowerShell 在管理集群和执行作业中的作用
W
wizardforcel 已提交
12
*   在 HDInsight 平台上运行用 C# 编写的 MapReduce 作业
W
wizardforcel 已提交
13
*   高级语言猪和 Hive
W
wizardforcel 已提交
14 15 16 17 18
*   与微软商业智能工具连接,以检索、丰富和可视化输出

示例过程不会涵盖 HDInsight 中的所有可用功能。在最后一章,这本书将回顾一些以前没有讨论过的特性,这样读者将对平台有一个完整的了解。

毫无意义的是,本书中使用的方法并不是为了优化性能或处理时间而设计的,因为目的是展示一系列可用工具的能力,而不是专注于执行特定任务的最有效方式。性能考虑非常重要,因为它们不仅会影响作业运行的时间,还会影响成本。长时间运行的作业会消耗更多的 CPU,而生成大量数据(即使是临时文件)的作业会消耗更多的存储空间。当这作为云服务的一部分进行支付时,成本可能会很快上升。