update doc, test=document_fix

8218aba5 · littletomatodonkey · GitHub · 5e2c1b30 · 8218aba5
隐藏空白更改
内联并排

Showing with 12 addition and 8 deletion

doc/doc_ch/FAQ.md doc/doc_ch/FAQ.md +12 -8

未找到文件。
--- a/doc/doc_ch/FAQ.md
+++ b/doc/doc_ch/FAQ.md
@@ -27,7 +27,7 @@
 ## 近期更新（2020.11.09）

 #### Q2.1.6 预处理部分，图片的长和宽为什么要处理成32的倍数？
-* 以检测中的resnet骨干网络为例，图像输入网络之后，需要经过5次2倍降采样，共32倍，因此建议输入的图像尺寸为32的倍数。
+**A**：以检测中的resnet骨干网络为例，图像输入网络之后，需要经过5次2倍降采样，共32倍，因此建议输入的图像尺寸为32的倍数。

 #### 3.1.19：训练的时候报错`reader raised an exception`，但是具体不知道是啥问题？

@@ -35,11 +35,13 @@

 #### Q3.3.21: 使用合成数据精调小模型后，效果可以，但是还没开源的小infer模型效果好，这是为什么呢？

-**A**：1. 要保证使用的配置文件和pretrain weights是对应的；
+**A**：
+
+（1）要保证使用的配置文件和pretrain weights是对应的；

-**A**：2. 在微调时，一般都需要真实数据，如果使用合成数据，效果反而可能会有下降，PaddleOCR中放出的识别inference模型也是基于预训练模型在真实数据上微调得到的，效果提升比较明显；
+（2）在微调时，一般都需要真实数据，如果使用合成数据，效果反而可能会有下降，PaddleOCR中放出的识别inference模型也是基于预训练模型在真实数据上微调得到的，效果提升比较明显；

-**A**：3. 在训练的时候，文本长度超过25的训练图像都会被丢弃，因此需要看下真正参与训练的图像有多少，太少的话也容易过拟合。
+（3）在训练的时候，文本长度超过25的训练图像都会被丢弃，因此需要看下真正参与训练的图像有多少，太少的话也容易过拟合。

 #### Q3.4.18：对于一些尺寸较大的文档类图片，在检测时会有较多的漏检，怎么避免这种漏检的问题呢？

@@ -162,7 +164,7 @@
 **A**：统一到一个字典里，会造成最后一层FC过大，增加模型大小。如果有特殊需求的话，可以把需要的几种语言合并字典训练模型，合并字典之后如果引入过多的形近字，可能会造成精度损失，字符平衡的问题可能也需要考虑一下。在PaddleOCR里暂时将语言字典分开。

 #### Q2.1.6 预处理部分，图片的长和宽为什么要处理成32的倍数？
-* 以检测中的resnet骨干网络为例，图像输入网络之后，需要经过5次2倍降采样，共32倍，因此建议输入的图像尺寸为32的倍数。
+**A**：以检测中的resnet骨干网络为例，图像输入网络之后，需要经过5次2倍降采样，共32倍，因此建议输入的图像尺寸为32的倍数。


 ### 数据集
@@ -528,11 +530,13 @@ return paddle.reader.multiprocess_reader(readers, False, queue_size=320)

 #### Q3.3.21: 使用合成数据精调小模型后，效果可以，但是还没开源的小infer模型效果好，这是为什么呢？

-**A**：1. 要保证使用的配置文件和pretrain weights是对应的；
+**A**：
+
+（1）要保证使用的配置文件和pretrain weights是对应的；

-**A**：2. 在微调时，一般都需要真实数据，如果使用合成数据，效果反而可能会有下降，PaddleOCR中放出的识别inference模型也是基于预训练模型在真实数据上微调得到的，效果提升比较明显；
+（2）在微调时，一般都需要真实数据，如果使用合成数据，效果反而可能会有下降，PaddleOCR中放出的识别inference模型也是基于预训练模型在真实数据上微调得到的，效果提升比较明显；

-**A**：3. 在训练的时候，文本长度超过25的训练图像都会被丢弃，因此需要看下真正参与训练的图像有多少，太少的话也容易过拟合。
+（3）在训练的时候，文本长度超过25的训练图像都会被丢弃，因此需要看下真正参与训练的图像有多少，太少的话也容易过拟合。


 ### 预测部署