Created by: guoshengCS
Add validation for dygraph Transformer. Add cross-attention cache for dygraph Transformer. Add greedy search for dygraph Transformer.
此外若要与 T2T 一致,还请参照 #3684 中的内容进行细节上的更新。主要是position encoding、scaled_dot_product_attention中的scale