Created by: ysh329
状态:等待review
主要内容
- 修复conv3x3 group在oppo骁龙625上结果写入失败(总是0),某三星手机重启问题;
- conv3x3 group小地方优化。if-else换为三元操作符等,整个图像修复模型,有略微性能提升60000->55000(625),8000->7000(865),大概10%左右;
- 冗余代码移除,group=1。
简单分析
cl kernel里有一个half4 input[9]; 这么个变量,在大部分手机上都没问题,就那两个手机(oppo骁龙625和三星某手机)分别出现结果写入到这个input[9]的某个分量里如input[3].x写入失败(oppo骁龙625),和重启(三星)。
经 @zhaoyang-star 的建议,尝试把这个half4 input[9],改为half4 input0,input1....定义9个,就不会出现这个上面的问题了。我猜想是不是这种half4 input[9]定义的方式超出了手机gpu的设置,导致的写入失败。当然,感觉这个问题的内存本质,我感觉还可以再深入探究下。