Spark SQL中所有功能的入口点是 SparkSession 类。去创建一个基本的 SparkSession,仅使用 SparkSession.builder() :
import org.apache.spark.sql.SparkSession val spark = SparkSession .builder() .appName("Spark SQL Example") .config("spark.some.config.option", "some-value") .getOrCreate() // For implicit conversions like converting RDDs to DataFrames import spark.implicits._ // 所有的示例代码可以在 Spark repo 的 “examples/src/main/scala/org/apache/spark/examples/sql/SparkSQLExample.scala” 中找到。
在 Spark 2.0 中 SparkSession 为 Hive 特性提供了内嵌的支持,包括使用 HiveQL 编写查询的能力,访问 Hive UDF,以及从 Hive 表中读取数据的能力。为了使用这些特性,你不需要去有一个已存在的 Hive 设置。