Created by: wanghuancoder
Others
由于benchmark统计原因,导致Fetch优化后,性能统计不准确。 本PR暂时通过每个batch wait main stream方式,让性能统计平稳。 但本PR会实际影响Paddle性能,待统计方式修复后,本PR需回滚。