Created by: gongweibao
5节点,每节点8卡: 使用 experimental_executor,num_threads = 8 速度:2.0 * 8 steps/s 使用 experimental_executor,num_threads = 2 速度:2.9 * 8 steps/s 使用并行图,速度:2.4 * 8 steps/s
experimental_executor很稳定: