Created by: brealisty
请教一个问题,对于文字检测阶段,在对图片进行标注的时候,有的文字区域离得比较远,语义上也属于两个部分;但是也有排版离得远但是语义上属于同一部分的,在标注的时候应该怎么标注呢?是不管离得远近语义一直就框在一起还是,只以距离衡量? 如果用人的思维考虑语义的话,可能会引入噪声,模型难收敛、或者预测结果不稳定; 如果只是以距离作为指标的话,在下游任务对相同语义的两个或者几个部分,合并起来比较困难。如果只是用规则来合并的话,那就对检测和识别(也可能加入纠错)阶段的准确率要求很高。 请教一下,有什么好的思路呢?