- 21 6月, 2022 5 次提交
-
-
由 Jackwaterveg 提交于
* fix usage of prefetch_factor * add assert * add docstring and change prefetch_factor when num_workers=0 * fix doc
-
由 Guanghua Yu 提交于
* cherry pick #43088 #40664 * fix clang format
-
由 chalsliu 提交于
* Update CUDA and TensorRT version for CI * disable ut * Update TensorRT for CUDA 10.2
-
由 niuliling123 提交于
删除 layout autotune 中的多余打印 背景 :layout autotune log会导致模型打印信息增多
-
由 zhoutianzi666 提交于
-
- 20 6月, 2022 5 次提交
-
-
由 z8hanghuan 提交于
* modify xpu.cmake,*test=kunlun (#41832) * modify xpu.cmake,*test=kunlun * modify xpu.cmake,*test=kunlun * modify xpu.cmake,*test=kunlun * modify xpu.cmake,*test=kunlun * support bilstm,*test=kunlun * [cherry-pick]support multi_layer of bilstm,*test=kunlun * [cherry-pick]refactor sum unit test,*test=kunlun (#43561)
-
由 xiongkun 提交于
* cherry pick from #43397 * fix code
-
由 Shang Zhizhou 提交于
-
由 zhaoyingli 提交于
-
由 zhaoyingli 提交于
* place all save/load path into temporary directory * rm no need unittest
-
- 18 6月, 2022 1 次提交
-
-
由 gongweibao 提交于
* fix test * fix test.
-
- 17 6月, 2022 4 次提交
-
-
由 weishengying 提交于
-
由 YuanRisheng 提交于
-
由 Haohongxiang 提交于
* fix pg bugs * update
-
由 WangXi 提交于
* Rename dropout is test (#43098) * replace dropout_is_test with is_test. * improve atol on a100. * fused_attention fused_feedforward api support Model Tensor Parallel (#42985) * fix is_test bug in fused_feedforward. (#43508) Co-authored-by: NLi Min <11663212+limin2021@users.noreply.github.com>
-
- 16 6月, 2022 5 次提交
-
-
由 zhangbopd 提交于
Use tempfile for unit test & custom op test to replace temporary files to ensure that all temporary files will be deleted normally after a single measurement, avoiding the usage of disk files. The PR only involves single-test and op test modifications and does not affect existing functionality. Release/2.3 branch modified in PR43521;
-
由 Qi Li 提交于
* fix unit test temp file, test=develop (#43155) * add cleanup code, test=develop (#43305)
-
由 Qi Li 提交于
* Fix numpy 1.20+ deprecation warnings (#42929) * Replace np.bool/np.bool8 with np.bool_ * Replace np.object with np.object_ * Replace np.complex with np.complex128 * Replace np.float with np.float64 * Replace np.int with np.int_ * Rerun pre-commit for newer pre-commit configuration * Use builtin bool instead of np.bool_ based on the context * fix mode dtype Co-authored-by: Nzlsh80826 <rewang@nvidia.com>
-
由 zhaoyingli 提交于
-
由 Guanghua Yu 提交于
* Add progress bar and speed up Quantization Pass * fix typo
-
- 15 6月, 2022 1 次提交
-
-
由 zyfncg 提交于
* fix bug of strided_slice (#43388) * fix stride_slice bug * fix bug * fix bug of infer shape for slice (#43443)
-
- 14 6月, 2022 3 次提交
-
-
由 Shang Zhizhou 提交于
-
由 xiongkun 提交于
* [EinsumOp] Polish forward logic and backward logic for optimize (#42603) * change logic for optimize * modifty * merge * change einsum_v2 as default and add new flags: FLAG_einsum_opt=1|0 (#43010) * [EinsumOp] Make EinsumOp support bfloat16. (#43085) * change einsum_v2 as default and add new flags: FLAG_einsum_opt=1|0 * make EInsumOP support bf16 * add unittest for BF16 * add condition for test_BF16 * fix bugs * fix * change the backward api to fit einsum op
-
由 freeliuzc 提交于
使用 tempfile 替换临时文件,保证在单测结束后,所有临时文件都会被正常的删除,避免占用磁盘文件。 此 PR 仅涉及单测修改,不影响现有功能。 develop 分支修改在 PR 43376
-
- 13 6月, 2022 1 次提交
-
-
由 tianshuo78520a 提交于
删除无用信息
-
- 09 6月, 2022 3 次提交
-
-
由 Guanghua Yu 提交于
* support fuse conv and bn in QAT (#42255) * support skip_op_list in PostTrainingQuantization (#42378) * fix unittest
-
由 Guanghua Yu 提交于
-
由 zhupengyang 提交于
-
- 08 6月, 2022 4 次提交
-
-
由 niuliling123 提交于
Reduce amax/amin frobenius_norm_kerne原始实现为Eigen实现,文件编译时间较长,因此本PR将其替换为KP实现 删除DefaultElementwiseOperator中重复功能支持,减少elementwise_double_grad OP编译时间
-
由 tianshuo78520a 提交于
删除在2.3 对比whl包大小。
-
由 jakpiase 提交于
-
由 heliqi 提交于
解决onnxruntime后端依赖的protobuf跟框架或外部protobuf版本冲突问题
-
- 07 6月, 2022 3 次提交
-
-
由 zyfncg 提交于
-
由 xiongkun 提交于
-
由 niuliling123 提交于
Delete ElementwiseKernel in BroadcastKernel 减少所有Broadcast中重复功能调用,同时减少编译时间和问题体积
-
- 06 6月, 2022 1 次提交
-
-
由 niuliling123 提交于
删除Broadcast function中rank例化以及Elementwise调用,降低编译时间。 从develop分支中的#42645 PR修改而来,由于develop分支与release分支相差较大,无法实现cherry-pick,因此针对release2.3重新提交PR. Broadcast中关于rank的例化会导致底层模板展开较多,造成reduce_sum_grad_kernel.cu.o文件体积过大,修改后可以降低.o体积及编译时间
-
- 31 5月, 2022 1 次提交
-
-
由 tianshuo78520a 提交于
删除判断build目录大小和预测库大小检查功能。该功能是和develop比较,会存在差异,在release任务中取消判断
-
- 30 5月, 2022 2 次提交
- 27 5月, 2022 1 次提交
-
-
由 tianshuo78520a 提交于
-