使用pp-structure训练自己的数据 (#875) · Issue · PaddlePaddle / PaddleOCR

使用pp-structure训练自己的数据

在train_layoutparser_model的介绍里，演示了如何用publaynet进行训练，以下有几个问题：

1.wget -O publaynet.tar.gz https://dax-cdn.cdn.appdomain.cloud/dax-publaynet/1.0.0/publaynet.tar.gz?_ga=2.104193024.1076900768.1622560733-649911202.1622560733这个链接有误，因为数据比较大，如果要下载subset的话可以把后面一长串改成train-1？

2.我下的是train-1，下完之后没有train.json这个文件。

3.因为没有这个json文件，所以不知道yml文件这样写对不对

4.公开的模型给的是基于publaynet训练的模型，所以对英文文档识别比较好，对中文文档比较差，所以如果想要训练自己的模型，比如使用cdla数据。数据格式是否需要统一，比如把5000个image放在train文件夹里，然后把5000个json合并成一个放在annotation文件夹里面（因为cdla数据集是一个image提供一个json我的理解就是要把它合成一个json）？

Edited 3月 31, 2022 by zhange123456789

PaddlePaddle / PaddleOCR 大约 2 年 前同步成功

使用pp-structure训练自己的数据

PaddlePaddle / PaddleOCR
大约 2 年前同步成功