README.md 2.7 KB
Newer Older
M
Meiyim 已提交
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
# Distributed Pretrain

only **mask word** strategy from [Ernie1.0](https://arxiv.org/pdf/1904.09223.pdf) is illustrated in this section.

1. make pretrain data

we use documents from multiple datasource (e.g. Wikipedia) to pretrain. 
input text should be segmented with space (even in chinese, this segmentation is used for *mask word*).
each line corresonds to a *sentence*.
empty line indicates end of document.

example:

> 数学 是 利用 符号语言 研究 数量 、 结构 、 变化 以及 空间 等 概念 的 一门 学科 , 从 某种 角度看 属于 形式 科学 的 一种 。
> 数学 透过 抽象化 和 逻辑推理 的 使用 , 由 计数 、 计算 、 量度 和 对 物体 形状 及 运动 的 观察 而 产生 。
> 数学家 们 拓展 这些 概念 , 为了 公式化 新 的 猜想 以及 从 选定 的 公理 及 定义 中 建立 起 严谨 推导 出 的 定理 。
> 基础 数学 的 知识 与 运用 总是 个人 与 团体 生活 中 不可或缺 的 一环 。
> 对 数学 基本概念 的 完善 , 早 在 古埃及 、 美索不达米亚 及 古印度 内 的 古代 数学 文本 便 可观 见 , 而 在 古希腊 那里 有 更为 严谨 的 处理 。
> 从 那时 开始 , 数学 的 发展 便 持续 不断 地 小幅 进展 , 至 16 世纪 的 文艺复兴 时期 , 因为 新 的 科学 发现 和 数学 革新 两者 的 交互 , 致使 数学 的 加速 发展 , 直至 今日 。
>
> 云外镜 ( ) 是 一种 能 反映 遥远 地方 影像 的 镜子 , 就 好比 现在 的 电视 , 或是 吉卜赛人 占卜 用 的 水晶球 一样 。
> 它 属于 付丧神 的 一种 , 是 镜子 历经 百年 后 幻化 而成 的 妖怪 , 又名 镜 妖 。
> 也 有人 说云 外镜 是 狸 妖 幻化 而成 的 , 当狸 妖 的 肚子 胀大 , 像 电视 的 映像管 一样 发光 时 , 就 可以 自由 地 显现出 远方 的 情景 。
> 著名 的 妖怪 绘师 鸟 山石 燕曾 记载 云外镜 经常 容易 跟 照妖镜 搞混 , 因为 照妖镜 可以 映照 出 肉眼 看不见 的 妖怪 , 这点 与 云外 镜会 映照 出 怪异 的 脸孔 是 有些 相似 。
> 据说 在 阴历 八月 十五日 的 夜晚 , 在 水晶 盆内 注满 水 , 将 镜子 平 放在 水面 , 若 是 映照 出 妖怪 的 模样 , 就 表示 这 面 镜子 里 住 著 妖怪 。


make pretrain data with:

```script
python3 ernie/pretrain/make_pretrain_data.py input_file output_file.gz  --vocab ./pretrained/vocab.txt
```

2. run distributed pretrain

```sript

python3 -m paddle.distributed.launch \
./ernie/pretrain/pretrain_dygraph.py \
    --data_dir data/* \
    --from_pretrained ./ernie_1.0_pretrain_dir/ 

```