Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
spark-doc-zh
提交
042a8d63
S
spark-doc-zh
项目概览
OpenDocCN
/
spark-doc-zh
大约 1 年 前同步成功
通知
36
Star
1189
Fork
345
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
spark-doc-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
体验新版 GitCode,发现更多精彩内容 >>
提交
042a8d63
编写于
4月 07, 2019
作者:
取昵称好难啊
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
"." to "。"
上级
032292ba
变更
4
展开全部
隐藏空白更改
内联
并排
Showing
4 changed file
with
123 addition
and
123 deletion
+123
-123
docs/1.md
docs/1.md
+6
-6
docs/13.md
docs/13.md
+3
-3
docs/15.md
docs/15.md
+1
-1
docs/paper.md
docs/paper.md
+113
-113
未找到文件。
docs/1.md
浏览文件 @
042a8d63
...
...
@@ -4,21 +4,21 @@ Apache Spark 是一个快速的,多用途的集群计算系统。它提供了
# 下载
从该项目官网的
[
下载页面
](
http://spark.apache.org/downloads.html
)
获取 Spark。该文档用于 Spark 2.2.0 版本。Spark可以通过Hadoop client库使用HDFS和YARN
.
下载一个预编译主流Hadoop版本比较麻烦。用户可以下载一个编译好的Hadoop版本,并且可以 通过
[
设置 Spark 的 classpath
](
hadoop-provided.html
)
来与任何的 Hadoop 版本一起运行 Spark。Scala 和 Java 用户可以在他们的工程中通过Maven的方式引入 Spark,并且在将来 Python 用户也可以从 PyPI 中安装 Spark。
从该项目官网的
[
下载页面
](
http://spark.apache.org/downloads.html
)
获取 Spark。该文档用于 Spark 2.2.0 版本。Spark可以通过Hadoop client库使用HDFS和YARN
。
下载一个预编译主流Hadoop版本比较麻烦。用户可以下载一个编译好的Hadoop版本,并且可以 通过
[
设置 Spark 的 classpath
](
hadoop-provided.html
)
来与任何的 Hadoop 版本一起运行 Spark。Scala 和 Java 用户可以在他们的工程中通过Maven的方式引入 Spark,并且在将来 Python 用户也可以从 PyPI 中安装 Spark。
如果您希望从源码中编译一个Spark,请访问
[
编译 Spark
](
building-spark.html
)
.
如果您希望从源码中编译一个Spark,请访问
[
编译 Spark
](
building-spark.html
)
。
Spark可以在windows和unix类似的系统(例如,Linux,Mac OS)上运行。它可以很容易的在一台本地机器上运行 -你只需要安装一个JAVA环境并配置PATH环境变量,或者让JAVA_HOME指向你的JAVA安装路径
Spark 可运行在 Java 8+,Python 2.7+/3.4+ 和 R 3.1+ 的环境上。针对 Scala API,Spark 2.2.0 使用了 Scala 2.11
\
.
您将需要去使用一个可兼容的 Scala 版本 (2.11.x).
Spark 可运行在 Java 8+,Python 2.7+/3.4+ 和 R 3.1+ 的环境上。针对 Scala API,Spark 2.2.0 使用了 Scala 2.11
\
。
您将需要去使用一个可兼容的 Scala 版本 (2.11.x)。
请注意,从 Spark 2.2.0 起,对 Java 7,Python 2.6 和旧的 Hadoop 2.6.5 之前版本的支持均已被删除
.
请注意,从 Spark 2.2.0 起,对 Java 7,Python 2.6 和旧的 Hadoop 2.6.5 之前版本的支持均已被删除
。
请注意,Scala 2.10 的支持已经不再适用于 Spark 2.1.0,可能会在 Spark 2.3.0 中删除。
# 运行示例和 Shell
Spark 自带了几个示例程序。Scala,Java,Python 和 R 示例在
`examples/src/main`
目录中。要运行 Java 或 Scala 中的某个示例程序,在最顶层的 Spark 目录中使用
`bin/run-example <class> [params]`
命令即可
.
(这个命令底层调用了
[
`spark-submit` 脚本
](
submitting-applications.html
)
去加载应用程序)。例如,
Spark 自带了几个示例程序。Scala,Java,Python 和 R 示例在
`examples/src/main`
目录中。要运行 Java 或 Scala 中的某个示例程序,在最顶层的 Spark 目录中使用
`bin/run-example <class> [params]`
命令即可
。
(这个命令底层调用了
[
`spark-submit` 脚本
](
submitting-applications.html
)
去加载应用程序)。例如,
```
./bin/run-example SparkPi 10
...
...
@@ -30,7 +30,7 @@ Spark 自带了几个示例程序。Scala,Java,Python 和 R 示例在 `examp
./bin/spark-shell --master local[2]
```
该
`--master`
选项可以指定为
[
针对分布式集群的 master URL
](
submitting-applications.html#master-urls
)
,或者 以
`local`
模式 使用 1 个线程在本地运行,
`local[N]`
会使用 N 个线程在本地运行
.
你应该先使用local模式进行测试。可以通过–help指令来获取spark-shell的所有配置项。Spark 同样支持 Python API。在 Python interpreter(解释器)中运行交互式的 Spark,请使用
`bin/pyspark`
:
该
`--master`
选项可以指定为
[
针对分布式集群的 master URL
](
submitting-applications.html#master-urls
)
,或者 以
`local`
模式 使用 1 个线程在本地运行,
`local[N]`
会使用 N 个线程在本地运行
。
你应该先使用local模式进行测试。可以通过–help指令来获取spark-shell的所有配置项。Spark 同样支持 Python API。在 Python interpreter(解释器)中运行交互式的 Spark,请使用
`bin/pyspark`
:
```
./bin/pyspark --master local[2]
...
...
docs/13.md
浏览文件 @
042a8d63
...
...
@@ -115,9 +115,9 @@ export HADOOP_CONF_DIR=XXX
# 从文件中加载配置
`spark-submit`
脚本可以从一个 properties 文件加载默认的
[
Spark configuration values
](
configuration.html
)
并且传递它们到您的应用中去。默认情况下,它将从 Spark 目录下的
`conf/spark-defaults.conf`
读取配置。更多详细信息,请看
[
加载默认配置
](
configuration.html#loading-default-configurations
)
.
`spark-submit`
脚本可以从一个 properties 文件加载默认的
[
Spark configuration values
](
configuration.html
)
并且传递它们到您的应用中去。默认情况下,它将从 Spark 目录下的
`conf/spark-defaults.conf`
读取配置。更多详细信息,请看
[
加载默认配置
](
configuration.html#loading-default-configurations
)
。
加载默认的 Spark 配置,这种方式可以消除某些标记到
`spark-submit`
. 的必要性。例如,如果
`spark.master`
属性被设置了,您可以在
`spark-submit`
中安全的省略
`--master`
配置 .
一般情况下,明确设置在
`SparkConf`
上的配置值的优先级最高,然后是传递给
`spark-submit`
的值,最后才是 default value(默认文件)中的值。
加载默认的 Spark 配置,这种方式可以消除某些标记到
`spark-submit`
的必要性。例如,如果
`spark.master`
属性被设置了,您可以在
`spark-submit`
中安全的省略
`--master`
配置。
一般情况下,明确设置在
`SparkConf`
上的配置值的优先级最高,然后是传递给
`spark-submit`
的值,最后才是 default value(默认文件)中的值。
如果您不是很清楚其中的配置设置来自哪里,您可以通过使用
`--verbose`
选项来运行
`spark-submit`
打印出细粒度的调试信息。
...
...
@@ -133,7 +133,7 @@ Spark 使用下面的 URL 格式以允许传播 jar 时使用不同的策略 :
N注意,那些 JAR 和文件被复制到 working directory(工作目录)用于在 executor 节点上的每个 SparkContext。这可以使用最多的空间显著量随着时间的推移,将需要清理。在 Spark On YARN 模式中,自动执行清理操作。在 Spark standalone 模式中,可以通过配置
`spark.worker.cleanup.appDataTtl`
属性来执行自动清理。
用户也可以通过使用
`--packages`
来提供一个逗号分隔的 maven coordinates(maven 坐标)以包含任何其它的依赖。在使用这个命令时所有可传递的依赖将被处理。其它的 repository(或者在 SBT 中被解析的)可以使用
`--repositories`
该标记添加到一个逗号分隔的样式中。(注意,对于那些设置了密码保护的库,在一些情况下可以在库URL中提供验证信息,例如
`https://user:password@host/...`
.
以这种方式提供验证信息需要小心。) 这些命令可以与
`pyspark`
,
`spark-shell`
和
`spark-submit`
配置会使用以包含 Spark Packages(Spark 包)。对于 Python 来说,也可以使用
`--py-files`
选项用于分发
`.egg`
,
`.zip`
和
`.py`
libraries 到 executor 中。
用户也可以通过使用
`--packages`
来提供一个逗号分隔的 maven coordinates(maven 坐标)以包含任何其它的依赖。在使用这个命令时所有可传递的依赖将被处理。其它的 repository(或者在 SBT 中被解析的)可以使用
`--repositories`
该标记添加到一个逗号分隔的样式中。(注意,对于那些设置了密码保护的库,在一些情况下可以在库URL中提供验证信息,例如
`https://user:password@host/...`
。
以这种方式提供验证信息需要小心。) 这些命令可以与
`pyspark`
,
`spark-shell`
和
`spark-submit`
配置会使用以包含 Spark Packages(Spark 包)。对于 Python 来说,也可以使用
`--py-files`
选项用于分发
`.egg`
,
`.zip`
和
`.py`
libraries 到 executor 中。
# 更多信息
...
...
docs/15.md
浏览文件 @
042a8d63
...
...
@@ -17,7 +17,7 @@ Spark 除了运行在 Mesos 或者 YARN 上以外,Spark 还提供了一个简
# 安装 Spark Standalone 集群
安装 Spark Standalone 集群,您只需要将编译好的版本部署在集群中的每个节点上。您可以获取 Spark 的每个版本的预编译版本或者自己编译
[
build it yourself
](
building-spark.html
)
.
安装 Spark Standalone 集群,您只需要将编译好的版本部署在集群中的每个节点上。您可以获取 Spark 的每个版本的预编译版本或者自己编译
[
build it yourself
](
building-spark.html
)
。
# 手动启动一个集群
...
...
docs/paper.md
浏览文件 @
042a8d63
此差异已折叠。
点击以展开。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录