Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
Crayon鑫
Paddle
提交
7300655f
P
Paddle
项目概览
Crayon鑫
/
Paddle
与 Fork 源项目一致
Fork自
PaddlePaddle / Paddle
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Paddle
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
未验证
提交
7300655f
编写于
11月 29, 2017
作者:
Y
Yang Yang(Tony)
提交者:
GitHub
11月 29, 2017
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update cpu_profiling.md (#6012)
上级
966a6ce6
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
2 addition
and
2 deletion
+2
-2
doc/howto/optimization/cpu_profiling.md
doc/howto/optimization/cpu_profiling.md
+2
-2
未找到文件。
doc/howto/optimization/cpu_profiling.md
浏览文件 @
7300655f
...
...
@@ -71,7 +71,7 @@ cprofilev -a 0.0.0.0 -p 3214 -f profile.out main.py
```
可以看到最耗时的函数是C++端的
`run`
函数。这需要联合我们第二节
`Python
与C++混合代码的性能分析`
来进行调优。而
`sync_with_cpp`
函数的总共耗时很长,每次调用的耗时也很长。于是我们可以点击
`sync_with_cpp`
的详细信息,了解其调用关系。
可以看到最耗时的函数是C++端的
`run`
函数。这需要联合我们第二节
`Python
`
与
`C++`
混合代码的性能分析
来进行调优。而
`sync_with_cpp`
函数的总共耗时很长,每次调用的耗时也很长。于是我们可以点击
`sync_with_cpp`
的详细信息,了解其调用关系。
```
text
Called By:
...
...
@@ -121,7 +121,7 @@ python -m yep -v main.py
1.
编译时指定
`-g`
生成调试信息。使用cmake的话,可以将CMAKE_BUILD_TYPE指定为
`RelWithDebInfo`
。
2.
编译时一定要开启优化。单纯的
`Debug`
编译性能会和
`-O2`
或者
`-O3`
有非常大的差别。
`Debug`
模式下的性能测试是没有意义的。
3.
运行性能分析的时候,先从单线程开始,再开启多线程,进而多机。毕竟
如果
单线程调试更容易。可以设置
`OMP_NUM_THREADS=1`
这个环境变量关闭openmp优化。
3.
运行性能分析的时候,先从单线程开始,再开启多线程,进而多机。毕竟单线程调试更容易。可以设置
`OMP_NUM_THREADS=1`
这个环境变量关闭openmp优化。
### 查看性能分析文件
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录