readme.md 1.4 KB
Newer Older
T
tangwei 已提交
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
# 快速开始

## 环境准备
Fleet-Rec是基于飞桨分布式训练所开发的,包含模型、训练模式的快速开发、调试、部署的工具, 让用户更轻松的使用飞桨分布式训练。

- 安装飞桨  **注:需要用户安装最新版本的飞桨<当前只支持Linux系统>。**

```bash
python -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
```

- 安装Fleet-Rec

```
git clone https://github.com/seiriosPlus/FleetRec/
cd FleetRec
python setup.py install
```

## ctr-dnn示例使用
目前框架内置了ctr-dnn模型,后续会加入更多模型

示例代码位于FleetRec/fleetrec/example/下, 当前支持单机训练和本地1*1模拟训练

### 单机训练
```bash
cd FleetRec

python -m fleetrec.run \
T
tangwei 已提交
30
       -m demo/ctr-dnn_train.yaml \
T
tangwei 已提交
31
       -d cpu \
T
tangwei 已提交
32
       -e single 
T
tangwei 已提交
33 34 35

# 使用GPU资源进行训练
python -m fleetrec.run \
T
tangwei 已提交
36
       -m demo/ctr-dnn_train.yaml \
T
tangwei 已提交
37 38
       -d gpu \
       -e single
T
tangwei 已提交
39 40 41 42 43 44
```

### 本地模拟分布式训练

```bash
cd FleetRec
T
tangwei 已提交
45
# 使用CPU资源进行训练
T
tangwei 已提交
46
python -m fleetrec.run \
T
tangwei 已提交
47
       -m demo/ctr-dnn_train.yaml \
T
tangwei 已提交
48 49
       -d cpu \
       -e local_cluster
T
tangwei 已提交
50 51 52 53 54 55 56 57
```

### 集群提交分布式训练<需要用户预先配置好集群环境,本提交命令不包含提交客户端>

```bash
cd FleetRec

python -m fleetrec.run \
T
tangwei 已提交
58
       -m demo/ctr-dnn_train.yaml \
T
tangwei 已提交
59
       -d cpu \
T
tangwei 已提交
60
       -e cluster
T
tangwei 已提交
61 62 63
```

更多用户文档及二次开发文档,敬请期待。