Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
BaiXuePrincess
Paddle
提交
8d8d2493
P
Paddle
项目概览
BaiXuePrincess
/
Paddle
与 Fork 源项目一致
Fork自
PaddlePaddle / Paddle
通知
1
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Paddle
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
提交
8d8d2493
编写于
11月 29, 2017
作者:
T
Travis CI
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Deploy to GitHub Pages:
7300655f
上级
ba3b2eb3
变更
6
展开全部
隐藏空白更改
内联
并排
Showing
6 changed file
with
10 addition
and
10 deletion
+10
-10
develop/doc/_sources/howto/optimization/cpu_profiling.md.txt
develop/doc/_sources/howto/optimization/cpu_profiling.md.txt
+2
-2
develop/doc/howto/optimization/cpu_profiling.html
develop/doc/howto/optimization/cpu_profiling.html
+2
-2
develop/doc/searchindex.js
develop/doc/searchindex.js
+1
-1
develop/doc_cn/_sources/howto/optimization/cpu_profiling.md.txt
...p/doc_cn/_sources/howto/optimization/cpu_profiling.md.txt
+2
-2
develop/doc_cn/howto/optimization/cpu_profiling.html
develop/doc_cn/howto/optimization/cpu_profiling.html
+2
-2
develop/doc_cn/searchindex.js
develop/doc_cn/searchindex.js
+1
-1
未找到文件。
develop/doc/_sources/howto/optimization/cpu_profiling.md.txt
浏览文件 @
8d8d2493
...
...
@@ -71,7 +71,7 @@ cprofilev -a 0.0.0.0 -p 3214 -f profile.out main.py
```
可以看到最耗时的函数是C++端的`run`函数。这需要联合我们第二节`Python
与C++混合代码的性能分析`
来进行调优。而`sync_with_cpp`函数的总共耗时很长,每次调用的耗时也很长。于是我们可以点击`sync_with_cpp`的详细信息,了解其调用关系。
可以看到最耗时的函数是C++端的`run`函数。这需要联合我们第二节`Python
`与`C++`混合代码的性能分析
来进行调优。而`sync_with_cpp`函数的总共耗时很长,每次调用的耗时也很长。于是我们可以点击`sync_with_cpp`的详细信息,了解其调用关系。
```text
Called By:
...
...
@@ -121,7 +121,7 @@ python -m yep -v main.py
1. 编译时指定`-g`生成调试信息。使用cmake的话,可以将CMAKE_BUILD_TYPE指定为`RelWithDebInfo`。
2. 编译时一定要开启优化。单纯的`Debug`编译性能会和`-O2`或者`-O3`有非常大的差别。`Debug`模式下的性能测试是没有意义的。
3. 运行性能分析的时候,先从单线程开始,再开启多线程,进而多机。毕竟
如果
单线程调试更容易。可以设置`OMP_NUM_THREADS=1`这个环境变量关闭openmp优化。
3. 运行性能分析的时候,先从单线程开始,再开启多线程,进而多机。毕竟单线程调试更容易。可以设置`OMP_NUM_THREADS=1`这个环境变量关闭openmp优化。
### 查看性能分析文件
...
...
develop/doc/howto/optimization/cpu_profiling.html
浏览文件 @
8d8d2493
...
...
@@ -243,7 +243,7 @@
1 0.618 0.618 0.618 0.618 /home/yuyang/perf_test/.env/lib/python2.7/site-packages/paddle/v2/fluid/__init__.py:1(
<
module
>
)
</pre></div>
</div>
<p>
可以看到最耗时的函数是C++端的
<code
class=
"docutils literal"
><span
class=
"pre"
>
run
</span></code>
函数。这需要联合我们第二节
<code
class=
"docutils literal"
><span
class=
"pre"
>
Python
与C++混合代码的性能分析
</span></code>
来进行调优。而
<code
class=
"docutils literal"
><span
class=
"pre"
>
sync_with_cpp
</span></code>
函数的总共耗时很长,每次调用的耗时也很长。于是我们可以点击
<code
class=
"docutils literal"
><span
class=
"pre"
>
sync_with_cpp
</span></code>
的详细信息,了解其调用关系。
</p>
<p>
可以看到最耗时的函数是C++端的
<code
class=
"docutils literal"
><span
class=
"pre"
>
run
</span></code>
函数。这需要联合我们第二节
<code
class=
"docutils literal"
><span
class=
"pre"
>
Python
</span></code>
与
<code
class=
"docutils literal"
><span
class=
"pre"
>
C++
</span></code>
混合代码的性能分析
来进行调优。而
<code
class=
"docutils literal"
><span
class=
"pre"
>
sync_with_cpp
</span></code>
函数的总共耗时很长,每次调用的耗时也很长。于是我们可以点击
<code
class=
"docutils literal"
><span
class=
"pre"
>
sync_with_cpp
</span></code>
的详细信息,了解其调用关系。
</p>
<div
class=
"highlight-text"
><div
class=
"highlight"
><pre><span></span>
Called By:
Ordered by: internal time
...
...
@@ -284,7 +284,7 @@ pip install yep
<ol
class=
"simple"
>
<li>
编译时指定
<code
class=
"docutils literal"
><span
class=
"pre"
>
-g
</span></code>
生成调试信息。使用cmake的话,可以将CMAKE_BUILD_TYPE指定为
<code
class=
"docutils literal"
><span
class=
"pre"
>
RelWithDebInfo
</span></code>
。
</li>
<li>
编译时一定要开启优化。单纯的
<code
class=
"docutils literal"
><span
class=
"pre"
>
Debug
</span></code>
编译性能会和
<code
class=
"docutils literal"
><span
class=
"pre"
>
-O2
</span></code>
或者
<code
class=
"docutils literal"
><span
class=
"pre"
>
-O3
</span></code>
有非常大的差别。
<code
class=
"docutils literal"
><span
class=
"pre"
>
Debug
</span></code>
模式下的性能测试是没有意义的。
</li>
<li>
运行性能分析的时候,先从单线程开始,再开启多线程,进而多机。毕竟
如果
单线程调试更容易。可以设置
<code
class=
"docutils literal"
><span
class=
"pre"
>
OMP_NUM_THREADS=1
</span></code>
这个环境变量关闭openmp优化。
</li>
<li>
运行性能分析的时候,先从单线程开始,再开启多线程,进而多机。毕竟单线程调试更容易。可以设置
<code
class=
"docutils literal"
><span
class=
"pre"
>
OMP_NUM_THREADS=1
</span></code>
这个环境变量关闭openmp优化。
</li>
</ol>
</div>
<div
class=
"section"
id=
""
>
...
...
develop/doc/searchindex.js
浏览文件 @
8d8d2493
因为 它太大了无法显示 source diff 。你可以改为
查看blob
。
develop/doc_cn/_sources/howto/optimization/cpu_profiling.md.txt
浏览文件 @
8d8d2493
...
...
@@ -71,7 +71,7 @@ cprofilev -a 0.0.0.0 -p 3214 -f profile.out main.py
```
可以看到最耗时的函数是C++端的`run`函数。这需要联合我们第二节`Python
与C++混合代码的性能分析`
来进行调优。而`sync_with_cpp`函数的总共耗时很长,每次调用的耗时也很长。于是我们可以点击`sync_with_cpp`的详细信息,了解其调用关系。
可以看到最耗时的函数是C++端的`run`函数。这需要联合我们第二节`Python
`与`C++`混合代码的性能分析
来进行调优。而`sync_with_cpp`函数的总共耗时很长,每次调用的耗时也很长。于是我们可以点击`sync_with_cpp`的详细信息,了解其调用关系。
```text
Called By:
...
...
@@ -121,7 +121,7 @@ python -m yep -v main.py
1. 编译时指定`-g`生成调试信息。使用cmake的话,可以将CMAKE_BUILD_TYPE指定为`RelWithDebInfo`。
2. 编译时一定要开启优化。单纯的`Debug`编译性能会和`-O2`或者`-O3`有非常大的差别。`Debug`模式下的性能测试是没有意义的。
3. 运行性能分析的时候,先从单线程开始,再开启多线程,进而多机。毕竟
如果
单线程调试更容易。可以设置`OMP_NUM_THREADS=1`这个环境变量关闭openmp优化。
3. 运行性能分析的时候,先从单线程开始,再开启多线程,进而多机。毕竟单线程调试更容易。可以设置`OMP_NUM_THREADS=1`这个环境变量关闭openmp优化。
### 查看性能分析文件
...
...
develop/doc_cn/howto/optimization/cpu_profiling.html
浏览文件 @
8d8d2493
...
...
@@ -257,7 +257,7 @@
1 0.618 0.618 0.618 0.618 /home/yuyang/perf_test/.env/lib/python2.7/site-packages/paddle/v2/fluid/__init__.py:1(
<
module
>
)
</pre></div>
</div>
<p>
可以看到最耗时的函数是C++端的
<code
class=
"docutils literal"
><span
class=
"pre"
>
run
</span></code>
函数。这需要联合我们第二节
<code
class=
"docutils literal"
><span
class=
"pre"
>
Python
与C++混合代码的性能分析
</span></code>
来进行调优。而
<code
class=
"docutils literal"
><span
class=
"pre"
>
sync_with_cpp
</span></code>
函数的总共耗时很长,每次调用的耗时也很长。于是我们可以点击
<code
class=
"docutils literal"
><span
class=
"pre"
>
sync_with_cpp
</span></code>
的详细信息,了解其调用关系。
</p>
<p>
可以看到最耗时的函数是C++端的
<code
class=
"docutils literal"
><span
class=
"pre"
>
run
</span></code>
函数。这需要联合我们第二节
<code
class=
"docutils literal"
><span
class=
"pre"
>
Python
</span></code>
与
<code
class=
"docutils literal"
><span
class=
"pre"
>
C++
</span></code>
混合代码的性能分析
来进行调优。而
<code
class=
"docutils literal"
><span
class=
"pre"
>
sync_with_cpp
</span></code>
函数的总共耗时很长,每次调用的耗时也很长。于是我们可以点击
<code
class=
"docutils literal"
><span
class=
"pre"
>
sync_with_cpp
</span></code>
的详细信息,了解其调用关系。
</p>
<div
class=
"highlight-text"
><div
class=
"highlight"
><pre><span></span>
Called By:
Ordered by: internal time
...
...
@@ -298,7 +298,7 @@ pip install yep
<ol
class=
"simple"
>
<li>
编译时指定
<code
class=
"docutils literal"
><span
class=
"pre"
>
-g
</span></code>
生成调试信息。使用cmake的话,可以将CMAKE_BUILD_TYPE指定为
<code
class=
"docutils literal"
><span
class=
"pre"
>
RelWithDebInfo
</span></code>
。
</li>
<li>
编译时一定要开启优化。单纯的
<code
class=
"docutils literal"
><span
class=
"pre"
>
Debug
</span></code>
编译性能会和
<code
class=
"docutils literal"
><span
class=
"pre"
>
-O2
</span></code>
或者
<code
class=
"docutils literal"
><span
class=
"pre"
>
-O3
</span></code>
有非常大的差别。
<code
class=
"docutils literal"
><span
class=
"pre"
>
Debug
</span></code>
模式下的性能测试是没有意义的。
</li>
<li>
运行性能分析的时候,先从单线程开始,再开启多线程,进而多机。毕竟
如果
单线程调试更容易。可以设置
<code
class=
"docutils literal"
><span
class=
"pre"
>
OMP_NUM_THREADS=1
</span></code>
这个环境变量关闭openmp优化。
</li>
<li>
运行性能分析的时候,先从单线程开始,再开启多线程,进而多机。毕竟单线程调试更容易。可以设置
<code
class=
"docutils literal"
><span
class=
"pre"
>
OMP_NUM_THREADS=1
</span></code>
这个环境变量关闭openmp优化。
</li>
</ol>
</div>
<div
class=
"section"
id=
""
>
...
...
develop/doc_cn/searchindex.js
浏览文件 @
8d8d2493
此差异已折叠。
点击以展开。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录