其它配置选项

下面的选项也可以用来提升查询执行的性能。随着 Spark 自动地执行越来越多的优化操作,这些选项在未来的发布版本中可能会过时。

属性名 默认值 含义
spark.sql.files.maxPartitionBytes 134217728 (128 MB) 读取文件时单个分区可容纳的最大字节数。
spark.sql.files.openCostInBytes 4194304 (4 MB)

打开文件的估算成本,按照同一时间能够扫描的字节数来测量。当往一个分区写入多个文件的时候会使用。高估更好, 这样的话小文件分区将比大文件分区更快 (先被调度)。

spark.sql.autoBroadcastJoinThreshold 10485760 (10 MB)

配置一个表在执行 join 操作时能够广播给所有 worker 节点的最大字节大小。通过将这个值设置为-1,可以禁用广播。注意,目前的数据统计仅支持已经运行了 ANALYZE TABLE <tableName> COMPUTE STATISTICS noscan 命令的 Hive metastore

spark.sql.shuffle.partitions 200 配置为连接或聚合操作混洗(shuffle)数据时使用的分区数。