# 零、本书的目的 *HDInsight 简洁地*旨在向读者介绍 HDInsight 平台的一些核心概念,并解释如何使用它提供的一些工具来处理数据。这将通过对大量非结构化文本数据执行简单的情感分析过程来证明。 这本书是从一个有经验的商业智能专业人士的角度写的,因此,这本书的一部分重点是翻译这些术语中的 Hadoop 概念,以及将 Hadoop 工具翻译成更熟悉的语言,如结构化查询语言(SQL)和多维表达式(MDX)。理解这本书不需要任何一种语言的经验,但是对于那些扎根于关系数据世界的人来说,这些语言的经验将有助于理解它的内容。 在本书的整个过程中,将展示以下特性: * 在 Azure 上设置和管理 HDInsight 集群 * 使用 Azure Blob 存储来存储输入和输出数据 * 了解 PowerShell 在管理集群和执行作业中的作用 * 在 HDInsight 平台上运行用 C# 编写的 MapReduce 作业 * 高级语言猪和 Hive * 与微软商业智能工具连接,以检索、丰富和可视化输出 示例过程不会涵盖 HDInsight 中的所有可用功能。在最后一章,这本书将回顾一些以前没有讨论过的特性,这样读者将对平台有一个完整的了解。 毫无意义的是,本书中使用的方法并不是为了优化性能或处理时间而设计的,因为目的是展示一系列可用工具的能力,而不是专注于执行特定任务的最有效方式。性能考虑非常重要,因为它们不仅会影响作业运行的时间,还会影响成本。长时间运行的作业会消耗更多的 CPU,而生成大量数据(即使是临时文件)的作业会消耗更多的存储空间。当这作为云服务的一部分进行支付时,成本可能会很快上升。