训练集标注的问题 (#100) · Issue · PaddlePaddle / PaddleOCR

训练集标注的问题

Created by: brealisty

请教一个问题，对于文字检测阶段，在对图片进行标注的时候，有的文字区域离得比较远，语义上也属于两个部分；但是也有排版离得远但是语义上属于同一部分的，在标注的时候应该怎么标注呢？是不管离得远近语义一直就框在一起还是，只以距离衡量？如果用人的思维考虑语义的话，可能会引入噪声，模型难收敛、或者预测结果不稳定；如果只是以距离作为指标的话，在下游任务对相同语义的两个或者几个部分，合并起来比较困难。如果只是用规则来合并的话，那就对检测和识别（也可能加入纠错）阶段的准确率要求很高。请教一下，有什么好的思路呢？

PaddlePaddle / PaddleOCR 大约 1 年 前同步成功

训练集标注的问题

PaddlePaddle / PaddleOCR
大约 1 年前同步成功