* add npu kernel for concat op * add npu kernel for concat op * refine code * update * refine concat_grad