diff --git a/doc/doc_ch/FAQ.md b/doc/doc_ch/FAQ.md index 22e7ad7fc1838008be4e5a6daa6b9d273ea0ea78..ef7394ee182aec7168a66511e376243dc5f0a8aa 100644 --- a/doc/doc_ch/FAQ.md +++ b/doc/doc_ch/FAQ.md @@ -349,7 +349,7 @@ A:PaddleOCR已完成Windows和Mac系统适配,运行时注意两点: #### Q:训练文字识别模型,真实数据有30w,合成数据有500w,需要做样本均衡吗? -A:需要,一般需要保证一个batch中真实数据样本和合成数据样本的比例是1:1~1:3左右效果比较理想。如果合成数据过大,会过拟合到合成数据,预测效果往往不佳。还有一种启发性的尝试是可以先用大量合成数据训练一个base模型,然后再用真实数据微调,在一些简单场景效果也是会有提升的。 +A:需要,一般需要保证一个batch中真实数据样本和合成数据样本的比例是5:1~10:1左右效果比较理想。如果合成数据过大,会过拟合到合成数据,预测效果往往不佳。还有一种启发性的尝试是可以先用大量合成数据训练一个base模型,然后再用真实数据微调,在一些简单场景效果也是会有提升的。 #### Q: 当训练数据量少时,如何获取更多的数据?