原文链接 : http://spark.apache.org/docs/latest/programming-guide.html#resilient-distributed-datasets-rdds
译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=2883730
贡献者 : 片刻,那伊抹微笑,geekidentity
Spark 主要以一个弹性分布式数据集(RDD)的概念为中心,它是一个容错且可以执行并行操作的元素的集合。有两种方法可以创建 RDD : 在你的 driver program(驱动程序)中 parallelizing 一个已存在的集合,或者在外部存储系统中引用一个数据集,例如,一个共享文件系统,HDFS,HBase,或者提供 Hadoop InputFormat 的任何数据源。