others_cn.rst 2.1 KB
Newer Older
1 2 3 4 5 6

其他
==================



Z
zq19 已提交
7
FLAGS_benchmark
8 9 10 11 12 13 14 15 16 17 18 19 20 21
********************
(始于0.12.0)

用于基准测试。设置后,它将使局域删除同步,添加一些内存使用日志,并在内核启动后同步所有cuda内核。

取值范围
---------------
Bool型,缺省值为False。

示例
-------
FLAGS_benchmark=True -  同步以测试基准。


Z
zq19 已提交
22
FLAGS_inner_op_parallelism
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
*******************************************
(始于1.3.0)

大多数Operators都在单线程模式下工作,但对于某些Operators,使用多线程更合适。 例如,优化稀疏梯度的优化Op使用多线程工作会更快。该flag用于设置Op内的线程数。

取值范围
---------------
Int32型,缺省值为0,这意味着operator将不会在多线程模式下运行。

示例
-------
FLAGS_inner_op_parallelism=5 - 将operator内的线程数设为5。

注意
-------
目前只有稀疏的adam op支持inner_op_parallelism。


Z
zq19 已提交
41
FLAGS_max_body_size
42 43 44 45 46 47 48 49 50 51 52 53 54 55
*******************************************
(始于1.0.0)

控制BRPC中的最大消息大小。

取值范围
---------------
Int32型,缺省值为2147483647。

示例
-------
FLAGS_max_body_size=2147483647 - 将BRPC消息大小设为2147483647。


Z
zq19 已提交
56
FLAGS_sync_nccl_allreduce
57 58 59 60 61 62 63 64 65 66 67 68 69 70
*******************************************
(始于1.3)

如果FLAGS_sync_nccl_allreduce为True,则会在allreduce_op_handle中调用 `cudaStreamSynchronize(nccl_stream)` ,这种模式在某些情况下可以获得更好的性能。

取值范围
---------------
Bool型,缺省值为True。

示例
-------
FLAGS_sync_nccl_allreduce=True - 在allreduce_op_handle中调用 `cudaStreamSynchronize(nccl_stream)` 。


Z
zq19 已提交
71
FLAGS_tracer_profile_fname
72 73 74 75 76 77 78 79 80 81 82 83 84
*******************************************
(始于1.4.0)

FLAGS_tracer_profile_fname表示由gperftools生成的命令式跟踪器的分析器文件名。仅在编译选项选择`WITH_PROFILER = ON`时有效。如果禁用则设为empty。

取值范围
---------------
String型,缺省值为("gperf")。

示例
-------
FLAGS_tracer_profile_fname="gperf_profile_file" - 将命令式跟踪器的分析器文件名设为"gperf_profile_file"。