Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
Oneflow-Inc
DLPerf
提交
c2028785
D
DLPerf
项目概览
Oneflow-Inc
/
DLPerf
上一次同步 2 年多
通知
4
Star
152
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
D
DLPerf
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
c2028785
编写于
10月 29, 2020
作者:
F
Flowingsun007
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
fix readme
上级
bb062fcd
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
11 addition
and
11 deletion
+11
-11
DeepSpeed/bert/README.md
DeepSpeed/bert/README.md
+11
-11
未找到文件。
DeepSpeed/bert/README.md
浏览文件 @
c2028785
...
...
@@ -25,11 +25,11 @@
## Feature support matrix
| Feature |
ResNet-50 v1.5 Paddle
|
| ----------------------------- | -----------------
----
|
| Multi-node,multi-gpu training | Yes
|
| NVIDIA NCCL | Yes
|
| Mixed precision | Yes
|
| Feature |
Bert Base Pytorch
|
| ----------------------------- | ----------------- |
| Multi-node,multi-gpu training | Yes |
| NVIDIA NCCL | Yes |
| Mixed precision | Yes |
# Quick Start
...
...
@@ -131,7 +131,7 @@ sudo apt install libnccl2=2.7.3-1+cuda10.2 libnccl-dev=2.7.3-1+cuda10.2
本次训练使用Wikipedia数据集,并根据NVIDIA官方提供的脚本制作转换为.hdf5格式,详见:
[
NVIDIA-quick-start-guide
](
https://github.com/NVIDIA/DeepLearningExamples/tree/master/PyTorch/LanguageModeling/BERT#quick-start-guide
)
。
### 词表文件
由于直接运行训练,程序会自动从s3.amazonaws.com下载词表文件(vocab.txt),但速度很慢,故我们可以手动下载词表文件并放入新建文件夹
`bing_bert/data`
下
,(直接运行训练,程序会自动从亚马逊amazonaws自动所有文件,但速度很慢)
词表文件下载链接见:
[
tokenization.py
](
https://github.com/microsoft/DeepSpeedExamples/blob/ba63ad0fa861d28b3b33bc2c20f702647403e258/bing_bert/pytorch_pretrained_bert/tokenization.py
)
。下载完成并将词表文件存入
`bing_bert/data`
后,注释掉
[
tokenization.py Line:30
](
[tokenization.py](https://github.com/microsoft/DeepSpeedExamples/blob/ba63ad0fa861d28b3b33bc2c20f702647403e258/bing_bert/pytorch_pretrained_bert/tokenization.py#L30
)
) 的
`PRETRAINED_VOCAB_ARCHIVE_MAP{}`
,修改如下:
由于直接运行训练,程序会自动从s3.amazonaws.com下载词表文件(vocab.txt),但速度很慢,故我们可以手动下载词表文件并放入新建文件夹
`bing_bert/data`
下
。
词表文件下载链接见:
[
tokenization.py
](
https://github.com/microsoft/DeepSpeedExamples/blob/ba63ad0fa861d28b3b33bc2c20f702647403e258/bing_bert/pytorch_pretrained_bert/tokenization.py
)
。下载完成并将词表文件存入
`bing_bert/data`
后,注释掉
[
tokenization.py Line:30
](
[tokenization.py](https://github.com/microsoft/DeepSpeedExamples/blob/ba63ad0fa861d28b3b33bc2c20f702647403e258/bing_bert/pytorch_pretrained_bert/tokenization.py#L30
)
) 的
`PRETRAINED_VOCAB_ARCHIVE_MAP{}`
,修改如下:
```
python3
CACHE_DIR = "/your/path/to/DeepSpeed/DeepSpeedExamples/bing_bert/data/"
...
...
@@ -339,16 +339,16 @@ Saving result to ./result/bz32_result.json
### 1.测速脚本
-
extract_
paddle
_logs.py
-
extract_
paddle
_logs_time.py
-
extract_
deepspeed
_logs.py
-
extract_
deepspeed
_logs_time.py
两个脚本略有不同,得到的结果稍有误差:
extract_
paddle
_logs.py根据官方在log中打印的速度,在120个iter中,排除前20iter,取后100个iter的速度做平均;
extract_
deepspeed
_logs.py根据官方在log中打印的速度,在120个iter中,排除前20iter,取后100个iter的速度做平均;
extract_
paddle
_logs_time.py则根据log中打印出的时间,排除前20iter取后100个iter的实际运行时间计算速度。
extract_
deepspeed
_logs_time.py则根据log中打印出的时间,排除前20iter取后100个iter的实际运行时间计算速度。
README展示的是extract_
paddle
_logs.py的计算结果。
README展示的是extract_
deepspeed
_logs.py的计算结果。
### 2.均值速度和中值速度
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录