Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
spark-doc-zh
提交
7c255b78
S
spark-doc-zh
项目概览
OpenDocCN
/
spark-doc-zh
10 个月 前同步成功
通知
35
Star
1189
Fork
345
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
spark-doc-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
7c255b78
编写于
4月 07, 2019
作者:
取昵称好难啊
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Fix markdown syntax
上级
b89e0d9a
变更
3
隐藏空白更改
内联
并排
Showing
3 changed file
with
8 addition
and
20 deletion
+8
-20
docs/1.md
docs/1.md
+3
-3
docs/15.md
docs/15.md
+2
-2
docs/16.md
docs/16.md
+3
-15
未找到文件。
docs/1.md
浏览文件 @
7c255b78
...
...
@@ -18,7 +18,7 @@ Spark 可运行在 Java 8+,Python 2.7+/3.4+ 和 R 3.1+ 的环境上。针对 S
# 运行示例和 Shell
Spark 自带了几个示例程序。Scala,Java,Python 和 R 示例在
`examples/src/main`
目录中。要运行 Java 或 Scala 中的某个示例程序,在最顶层的 Spark 目录中使用
`bin/run-example <class> [params]`
命令即可.(这个命令底层调用了
[
`spark-submit` 脚本
](
submitting-applications.html
)
去加载应用程序)。例如
,
Spark 自带了几个示例程序。Scala,Java,Python 和 R 示例在
`examples/src/main`
目录中。要运行 Java 或 Scala 中的某个示例程序,在最顶层的 Spark 目录中使用
`bin/run-example <class> [params]`
命令即可.(这个命令底层调用了
[
`spark-submit` 脚本
](
submitting-applications.html
)
去加载应用程序)。例如
,
```
./bin/run-example SparkPi 10
...
...
@@ -36,7 +36,7 @@ Spark 自带了几个示例程序。Scala,Java,Python 和 R 示例在 `examp
./bin/pyspark --master local[2]
```
Python 中也提供了应用示例。例如
,
Python 中也提供了应用示例。例如
,
```
./bin/spark-submit examples/src/main/python/pi.py 10
...
...
@@ -48,7 +48,7 @@ Python 中也提供了应用示例。例如,
./bin/sparkR --master local[2]
```
R 中也提供了应用示例。例如
,
R 中也提供了应用示例。例如
,
```
./bin/spark-submit examples/src/main/r/dataframe.R
...
...
docs/15.md
浏览文件 @
7c255b78
...
...
@@ -97,7 +97,7 @@ SPARK_MASTER_OPTS 支持以下系统属性:
|
|
`spark.deploy.spreadOut`
| true | 这个选项控制 standalone 集群 manager 是应该跨界店 spread(传播)应用程序还是应该努力将应用程序整合到尽可能少的节点上。在 HDFS 中, Spreading 是数据本地化的更好的选择,但是对于计算密集型的负载,整合会更有效率。
|
|
`spark.deploy.defaultCores`
| (infinite) | 如果没有设置
`spark.cores.max`
,在 Spark 的 standalone 模式下默认分配给应用程序的 cores(核)数。如果没有设置,应用程序将总是获得所有的可用核,除非设置了
`spark.cores.max`
。在共享集群中设置较低的核数
,
可用于防止用户 grabbing(抓取)整个集群。
|
`spark.deploy.defaultCores`
| (infinite) | 如果没有设置
`spark.cores.max`
,在 Spark 的 standalone 模式下默认分配给应用程序的 cores(核)数。如果没有设置,应用程序将总是获得所有的可用核,除非设置了
`spark.cores.max`
。在共享集群中设置较低的核数
,
可用于防止用户 grabbing(抓取)整个集群。
|
|
`spark.deploy.maxExecutorRetries`
| 10 | 限制在 standalone 集群 manager 删除一个不正确地应用程序之前可能发生的 back-to-back 执行器失败的最大次数。如果一个应用程序有任何正在运行的执行器,则它永远不会被删除。如果一个应用程序经历过超过
`spark.deploy.maxExecutorRetries`
次的连续失败,没有执行器成功开始运行在这些失败之间,并且应用程序没有运行着的执行器,然后 standalone 集群 manager 将会移除这个应用程序并将它标记为失败。要禁用这个自动删除功能,设置
`spark.deploy.maxExecutorRetries`
为
`-1`
。
|
...
...
@@ -109,7 +109,7 @@ SPARK_WORKER_OPTS 支持以下的系统属性:
| --- | --- | --- |
|
`spark.worker.cleanup.enabled`
| false | 激活周期性清空 worker / application 目录。注意,这只影响 standalone 模式,因为 YARN 工作方式不同。只有已停止的应用程序的目录会被清空。 |
|
`spark.worker.cleanup.interval`
| 1800 (30 minutes) | 在本地机器上,worker 控制清空老的应用程序的工作目录的时间间隔,以秒计数。 |
|
`spark.worker.cleanup.appDataTtl`
| 604800 (7 days
,
7
* 24 *
3600) | 每个 worker 中应用程序工作目录的保留时间。这是一个 Live 时间,并且应该取决于您拥有的可用的磁盘空间量。应用程序的日志和 jars 都会被下载到应用程序的工作目录。随着时间的推移,这个工作目录会很快填满磁盘空间,特别是如果您经常运行作业。 |
|
`spark.worker.cleanup.appDataTtl`
| 604800 (7 days
,
7
* 24 *
3600) | 每个 worker 中应用程序工作目录的保留时间。这是一个 Live 时间,并且应该取决于您拥有的可用的磁盘空间量。应用程序的日志和 jars 都会被下载到应用程序的工作目录。随着时间的推移,这个工作目录会很快填满磁盘空间,特别是如果您经常运行作业。 |
|
`spark.worker.ui.compressedLogFileLengthCacheSize`
| 100 | 对于压缩日志文件,只能通过未压缩文件来计算未压缩文件。Spark 缓存未压缩日志文件的未压缩文件大小。此属性控制缓存的大小。 |
# 提交应用程序到集群中
...
...
docs/16.md
浏览文件 @
7c255b78
...
...
@@ -233,21 +233,9 @@ Mesos 仅支持使用粗粒度模式的动态分配,这可以基于应用程
|
`spark.mesos.extra.cores`
|
`0`
| 设置执行程序公布的额外核心数。这不会导致分配更多的内核。它代替意味着执行器将“假装”它有更多的核心,以便驱动程序将发送更多的任务。使用此来增加并行度。此设置仅用于 Mesos 粗粒度模式。 |
|
`spark.mesos.mesosExecutor.cores`
|
`1.0`
|(仅限细粒度模式)给每个 Mesos 执行器的内核数。这不包括用于运行 Spark 任务的核心。换句话说,即使没有运行 Spark 任务,每个 Mesos 执行器将占用这里配置的内核数。该值可以是浮点数。 |
|
`spark.mesos.executor.docker.image`
| (none) | 设置 Spark 执行器将运行的 docker 映像的名称。所选映像必须安装 Spark,以及兼容版本的 Mesos 库。Spark 在图像中的安装路径可以通过
`spark.mesos.executor.home`
来指定; 可以使用
`spark.executorEnv.MESOS_NATIVE_JAVA_LIBRARY`
指定 Mesos 库的安装路径。 |
|
`spark.mesos.executor.docker.forcePullImage`
| false | 强制 Mesos 代理拉取
`spark.mesos.executor.docker.image`
中指定的图像。 默认情况下,Mesos 代理将不会拉取已经缓存的图像。 |
|
`spark.mesos.executor.docker.parameters`
| (none) | 在使用 docker 容器化器在 Mesos 上启动 Spark 执行器时,设置将被传递到
`docker run`
命令的自定义参数的列表。此属性的格式是逗号分隔的列表 键/值对。例:
```
key1=val1,key2=val2,key3=val3
```
|
|
`spark.mesos.executor.docker.volumes`
| (none) | 设置要装入到 Docker 镜像中的卷列表,这是使用
`spark.mesos.executor.docker.image`
设置的。此属性的格式是以逗号分隔的映射列表,后面的形式传递到
`docker run -v`
。这是他们采取的形式 :
```
[host_path:]container_path[:ro|:rw]
```
|
|
`spark.mesos.executor.docker.forcePullImage`
| false | 强制 Mesos 代理拉取
`spark.mesos.executor.docker.image`
中指定的图像。默认情况下,Mesos 代理将不会拉取已经缓存的图像。 |
|
`spark.mesos.executor.docker.parameters`
| (none) | 在使用 docker 容器化器在 Mesos 上启动 Spark 执行器时,设置将被传递到
`docker run`
命令的自定义参数的列表。此属性的格式是逗号分隔的键/值对列表。例:
<br><pre>
key1=val1,key2=val2,key3=val3
</pre>
|
|
`spark.mesos.executor.docker.volumes`
| (none) | 设置要装入到 Docker 镜像中的卷列表,这是使用
`spark.mesos.executor.docker.image`
设置的。此属性的格式是以逗号分隔的映射列表,后面的形式传递到
`docker run -v`
。这是他们采取的形式:
<br><pre>
[host_path:]container_path[:ro|:rw]
</pre>
|
|
`spark.mesos.task.labels`
| (none) | 设置 Mesos 标签以添加到每个任务。标签是自由格式的键值对。 键值对应以冒号分隔,并用逗号分隔多个。Ex. key:value,key2:value2. |
|
`spark.mesos.executor.home`
| driver side
`SPARK_HOME`
| 在 Mesos 中的执行器上设置 Spark 安装目录。默认情况下,执行器将只使用驱动程序的 Spark 主目录,它们可能不可见。请注意,这只有当 Spark 二进制包没有通过
`spark.executor.uri`
指定时才是有意义的。 |
|
`spark.mesos.executor.memoryOverhead`
| executor memory
*
0.10, with minimum of 384 | 以每个执行程序分配的额外内存量(以 MB 为单位)。默认情况下,开销将大于
`spark.executor.memory`
的 384 或 10%。如果设置,最终开销将是此值。 |
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录