提交 042a8d63 编写于 作者: 取昵称好难啊's avatar 取昵称好难啊

"." to "。"

上级 032292ba
......@@ -4,21 +4,21 @@ Apache Spark 是一个快速的,多用途的集群计算系统。它提供了
# 下载
从该项目官网的 [下载页面](http://spark.apache.org/downloads.html) 获取 Spark。该文档用于 Spark 2.2.0 版本。Spark可以通过Hadoop client库使用HDFS和YARN.下载一个预编译主流Hadoop版本比较麻烦。用户可以下载一个编译好的Hadoop版本,并且可以 通过[设置 Spark 的 classpath](hadoop-provided.html) 来与任何的 Hadoop 版本一起运行 Spark。Scala 和 Java 用户可以在他们的工程中通过Maven的方式引入 Spark,并且在将来 Python 用户也可以从 PyPI 中安装 Spark。
从该项目官网的 [下载页面](http://spark.apache.org/downloads.html) 获取 Spark。该文档用于 Spark 2.2.0 版本。Spark可以通过Hadoop client库使用HDFS和YARN下载一个预编译主流Hadoop版本比较麻烦。用户可以下载一个编译好的Hadoop版本,并且可以 通过[设置 Spark 的 classpath](hadoop-provided.html) 来与任何的 Hadoop 版本一起运行 Spark。Scala 和 Java 用户可以在他们的工程中通过Maven的方式引入 Spark,并且在将来 Python 用户也可以从 PyPI 中安装 Spark。
如果您希望从源码中编译一个Spark,请访问 [编译 Spark](building-spark.html).
如果您希望从源码中编译一个Spark,请访问 [编译 Spark](building-spark.html)
Spark可以在windows和unix类似的系统(例如,Linux,Mac OS)上运行。它可以很容易的在一台本地机器上运行 -你只需要安装一个JAVA环境并配置PATH环境变量,或者让JAVA_HOME指向你的JAVA安装路径
Spark 可运行在 Java 8+,Python 2.7+/3.4+ 和 R 3.1+ 的环境上。针对 Scala API,Spark 2.2.0 使用了 Scala 2.11\. 您将需要去使用一个可兼容的 Scala 版本 (2.11.x).
Spark 可运行在 Java 8+,Python 2.7+/3.4+ 和 R 3.1+ 的环境上。针对 Scala API,Spark 2.2.0 使用了 Scala 2.11\您将需要去使用一个可兼容的 Scala 版本 (2.11.x)。
请注意,从 Spark 2.2.0 起,对 Java 7,Python 2.6 和旧的 Hadoop 2.6.5 之前版本的支持均已被删除.
请注意,从 Spark 2.2.0 起,对 Java 7,Python 2.6 和旧的 Hadoop 2.6.5 之前版本的支持均已被删除
请注意,Scala 2.10 的支持已经不再适用于 Spark 2.1.0,可能会在 Spark 2.3.0 中删除。
# 运行示例和 Shell
Spark 自带了几个示例程序。Scala,Java,Python 和 R 示例在 `examples/src/main` 目录中。要运行 Java 或 Scala 中的某个示例程序,在最顶层的 Spark 目录中使用 `bin/run-example <class> [params]` 命令即可.(这个命令底层调用了 [`spark-submit` 脚本](submitting-applications.html)去加载应用程序)。例如,
Spark 自带了几个示例程序。Scala,Java,Python 和 R 示例在 `examples/src/main` 目录中。要运行 Java 或 Scala 中的某个示例程序,在最顶层的 Spark 目录中使用 `bin/run-example <class> [params]` 命令即可(这个命令底层调用了 [`spark-submit` 脚本](submitting-applications.html)去加载应用程序)。例如,
```
./bin/run-example SparkPi 10
......@@ -30,7 +30,7 @@ Spark 自带了几个示例程序。Scala,Java,Python 和 R 示例在 `examp
./bin/spark-shell --master local[2]
```
`--master`选项可以指定为 [针对分布式集群的 master URL](submitting-applications.html#master-urls),或者 以`local`模式 使用 1 个线程在本地运行,`local[N]` 会使用 N 个线程在本地运行.你应该先使用local模式进行测试。可以通过–help指令来获取spark-shell的所有配置项。Spark 同样支持 Python API。在 Python interpreter(解释器)中运行交互式的 Spark,请使用 `bin/pyspark`:
`--master`选项可以指定为 [针对分布式集群的 master URL](submitting-applications.html#master-urls),或者 以`local`模式 使用 1 个线程在本地运行,`local[N]` 会使用 N 个线程在本地运行你应该先使用local模式进行测试。可以通过–help指令来获取spark-shell的所有配置项。Spark 同样支持 Python API。在 Python interpreter(解释器)中运行交互式的 Spark,请使用 `bin/pyspark`:
```
./bin/pyspark --master local[2]
......
......@@ -115,9 +115,9 @@ export HADOOP_CONF_DIR=XXX
# 从文件中加载配置
`spark-submit` 脚本可以从一个 properties 文件加载默认的 [Spark configuration values](configuration.html) 并且传递它们到您的应用中去。默认情况下,它将从 Spark 目录下的 `conf/spark-defaults.conf` 读取配置。更多详细信息,请看 [加载默认配置](configuration.html#loading-default-configurations).
`spark-submit` 脚本可以从一个 properties 文件加载默认的 [Spark configuration values](configuration.html) 并且传递它们到您的应用中去。默认情况下,它将从 Spark 目录下的 `conf/spark-defaults.conf` 读取配置。更多详细信息,请看 [加载默认配置](configuration.html#loading-default-configurations)
加载默认的 Spark 配置,这种方式可以消除某些标记到 `spark-submit`. 的必要性。例如,如果 `spark.master` 属性被设置了,您可以在`spark-submit`中安全的省略 `--master` 配置 . 一般情况下,明确设置在 `SparkConf` 上的配置值的优先级最高,然后是传递给 `spark-submit`的值,最后才是 default value(默认文件)中的值。
加载默认的 Spark 配置,这种方式可以消除某些标记到 `spark-submit` 的必要性。例如,如果 `spark.master` 属性被设置了,您可以在 `spark-submit` 中安全的省略 `--master` 配置。一般情况下,明确设置在 `SparkConf` 上的配置值的优先级最高,然后是传递给 `spark-submit`的值,最后才是 default value(默认文件)中的值。
如果您不是很清楚其中的配置设置来自哪里,您可以通过使用 `--verbose` 选项来运行 `spark-submit` 打印出细粒度的调试信息。
......@@ -133,7 +133,7 @@ Spark 使用下面的 URL 格式以允许传播 jar 时使用不同的策略 :
N注意,那些 JAR 和文件被复制到 working directory(工作目录)用于在 executor 节点上的每个 SparkContext。这可以使用最多的空间显著量随着时间的推移,将需要清理。在 Spark On YARN 模式中,自动执行清理操作。在 Spark standalone 模式中,可以通过配置 `spark.worker.cleanup.appDataTtl` 属性来执行自动清理。
用户也可以通过使用 `--packages`来提供一个逗号分隔的 maven coordinates(maven 坐标)以包含任何其它的依赖。在使用这个命令时所有可传递的依赖将被处理。其它的 repository(或者在 SBT 中被解析的)可以使用 `--repositories`该标记添加到一个逗号分隔的样式中。(注意,对于那些设置了密码保护的库,在一些情况下可以在库URL中提供验证信息,例如 `https://user:password@host/...`.以这种方式提供验证信息需要小心。) 这些命令可以与 `pyspark``spark-shell``spark-submit` 配置会使用以包含 Spark Packages(Spark 包)。对于 Python 来说,也可以使用 `--py-files` 选项用于分发 `.egg``.zip``.py` libraries 到 executor 中。
用户也可以通过使用 `--packages`来提供一个逗号分隔的 maven coordinates(maven 坐标)以包含任何其它的依赖。在使用这个命令时所有可传递的依赖将被处理。其它的 repository(或者在 SBT 中被解析的)可以使用 `--repositories`该标记添加到一个逗号分隔的样式中。(注意,对于那些设置了密码保护的库,在一些情况下可以在库URL中提供验证信息,例如 `https://user:password@host/...`以这种方式提供验证信息需要小心。) 这些命令可以与 `pyspark``spark-shell``spark-submit` 配置会使用以包含 Spark Packages(Spark 包)。对于 Python 来说,也可以使用 `--py-files` 选项用于分发 `.egg``.zip``.py` libraries 到 executor 中。
# 更多信息
......
......@@ -17,7 +17,7 @@ Spark 除了运行在 Mesos 或者 YARN 上以外,Spark 还提供了一个简
# 安装 Spark Standalone 集群
安装 Spark Standalone 集群,您只需要将编译好的版本部署在集群中的每个节点上。您可以获取 Spark 的每个版本的预编译版本或者自己编译 [build it yourself](building-spark.html).
安装 Spark Standalone 集群,您只需要将编译好的版本部署在集群中的每个节点上。您可以获取 Spark 的每个版本的预编译版本或者自己编译 [build it yourself](building-spark.html)
# 手动启动一个集群
......
此差异已折叠。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册