diff --git a/ppstructure/docs/PP-Structurev2_introduction.md b/ppstructure/docs/PP-Structurev2_introduction.md index 5719ca84f26ef1256989eaceaec2643dcaa43335..f420a1735ff9f77c981e3e48430b59d619ae2515 100644 --- a/ppstructure/docs/PP-Structurev2_introduction.md +++ b/ppstructure/docs/PP-Structurev2_introduction.md @@ -54,7 +54,7 @@ PP-Structurev2系统流程图如下所示,文档图像首先经过图像矫正 最终,与PP-Structurev1相比: -- 版面分析模型参数量减少87%,推理速度提升12倍,精度提升0.4%; +- 版面分析模型参数量减少90.8%,推理速度提升12倍,精度提升0.4%; - 表格识别预测耗时不变,模型精度提升6%,端到端TEDS提升2%; - 关键信息抽取模型速度提升2.8倍,语义实体识别模型精度提升2.8%;关系抽取模型精度提升9.1%。 @@ -312,7 +312,7 @@ LayoutLMv2以及LayoutXLM中引入视觉骨干网络,用于提取视觉特征 同时,基于XFUND数据集,VI-LayoutXLM在RE任务上的精度也进一步提升了`1.06%`。 -**(2) TB-YX排序方法(Threshold-Based YX sorting algorithm) ** +**(2) TB-YX排序方法(Threshold-Based YX sorting algorithm)** 文本阅读顺序对于信息抽取与文本理解等任务至关重要,传统多模态模型中,没有考虑不同OCR工具可能产生的不正确阅读顺序,而模型输入中包含位置编码,阅读顺序会直接影响预测结果,在预处理中,我们对文本行按照从上到下,从左到右(YX)的顺序进行排序,为防止文本行位置轻微干扰带来的排序结果不稳定问题,在排序的过程中,引入位置偏移阈值Th,对于Y方向距离小于Th的2个文本内容,使用x方向的位置从左到右进行排序。TB-YX排序方法伪代码如下所示。