编程指南
快速入门
Spark 编程指南
概述
Spark 依赖
Spark 的初始化
Shell 的使用
弹性分布式数据集(RDDS)
并行集合
外部数据集
RDD 操作
RDD 持久化
共享变量
Broadcast Variables (广播变量)
Accumulators (累加器)
部署应用到集群中
使用 Java / Scala 运行 spark Jobs
单元测试
Spark 1.0 版本前的应用程序迁移
下一步
Spark Streaming
Spark Streaming 概述
一个简单的示例
基本概念
依赖
初始化 StreamingContext
Discretized Streams(DStreams)(离散化流)
Input DStreams 和 Receivers
DStreams 上的 Transformations(转换)
DStreams 上的输出操作
DataFrame 和 SQL 操作
MLlib 操作
缓存 / 持久化
CheckPointing
累加器和广播变量
应用程序部署
监控应用程序
性能优化
降低批处理的时间
设置合理的批处理间隔
内存优化
容错语义
迁移指南(从 0.9.1 或者更低版本至 1.x 版本)
快速跳转
Kafka 集成指南
DataFrames,Datasets 和 SQL
Spark SQL 概述
SQL
Datasets 和 DataFrames
Spark SQL 入门指南
起始点 : SparkSession
创建 DataFrame
无类型 Dataset 操作(aka DataFrame 操作)
以编程的方式运行 SQL 查询
创建 Dataset
RDD 的互操作性
数据源
通用的 Load/Save 函数
Parquet文件
JSON Datasets
Hive 表
JDBC 连接其它数据库
故障排除
性能调优
缓存数据到内存
其它配置选项
分布式 SQL引擎
运行 Thrift JDBC/ODBC server
运行 Spark SQL CLI
迁移指南
从 Spark SQL 1.6 升级到 2.0
从 Spark SQL 1.5 升级到 1.6
从 Spark SQL 1.4 升级到 1.5
从 Spark SQL 1.3 升级到 1.4
从 Spark SQL 1.0~1.2 升级到 1.3
兼容 Apache Hive
参考
数据类型
NaN 语义
Structured Streaming
MLlib(机器学习)
机器学习库(MLlib)指南
ML Pipelines(ML管道)
Extracting, transforming and selecting features(特征的提取,转换和选择)
Classification and regression(分类和回归)
Clustering(聚类)
Collaborative Filtering(协同过滤)
ML Tuning: model selection and hyperparameter tuning(ML调优:模型选择和超参数调整)
Advanced topics(高级主题)
MLlib:基于RDD的API
Data Types - RDD-based API(数据类型)
Basic Statistics - RDD-based API(基本统计)
Classification and Regression - RDD-based API(分类和回归)
Collaborative Filtering - RDD-based API(协同过滤)
Clustering - RDD-based API(聚类 - 基于RDD的API)
Dimensionality Reduction - RDD-based API(降维)
Feature Extraction and Transformation - RDD-based API(特征的提取和转换)
Frequent Pattern Mining - RDD-based API(频繁模式挖掘)
Evaluation metrics - RDD-based API(评估指标)
PMML model export - RDD-based API(PMML模型导出)
Optimization - RDD-based API(最优化)
GraphX(图形处理)
Spark R
最近的更新
那伊抹微笑
Apache Spark 2.2.0 中文文档
在2017-07-26更新
查看变动
片刻
MLlib:基于RDD的API
在2017-07-21更新
查看变动
GraphX(图形处理)
在2017-07-20更新
查看变动
小瑶
Spark Standalone 模式
在2017-07-18更新
查看变动
片刻
Scala的类:变量/方法/构造方法/继承
在2017-07-05更新
查看变动
陈留锁
RDD 持久化
在2017-07-04发表了评论
无尴尬不青春
优化指南
在2017-06-19更新
查看变动
Spark 配置
在2017-06-19更新
查看变动
容错语义
在2017-06-13更新
查看变动
那伊抹微笑
初始化 StreamingContext
在2017-06-11更新
查看变动
Spark Streaming
在2017-06-11更新
查看变动
Spark 配置
在2017-06-06更新
查看变动
片刻
累加器和广播变量
在2017-06-05更新
查看变动
DStreams 上的 Transformations(转换)
在2017-06-01更新
查看变动
Input DStreams 和 Receivers
在2017-06-01更新
查看变动
依赖
在2017-06-01更新
查看变动
基本概念
在2017-06-01更新
查看变动
Spark Streaming
在2017-06-01更新
查看变动
应用程序部署
在2017-06-01更新
查看变动
MLlib 操作
在2017-06-01更新
查看变动
显示更多