Created by: DannyIsFunny
#3959 对内存对齐方式进行修改,从64字节对齐修改为16字节对齐,会降低运行时内存占用。 但是后期测试该修改会降低模型在ARMv8运行时速度、参照竞品 ncnn 在ARMv8上也是采用64字节对齐。 测试结果反应在ARMv8平台,ALIGN=16到ALIGN=64内存增量较低;而对于特定模型有20%的运行耗时降低,故本PR将对齐方式修改回64字节对齐