[CINN] Dump more compilation result and optimize parallel compiler flags (#55935)
1. `Parallel Compiler`:
- 合并`FLAGS_cinn_parallel_compile_size`和`FLAGS_cinn_parallel_compile_thread`,通过`FLAGS_cinn_parallel_compile_thread`即可指定编译时使用的线程数,所有的`fusion_groups`将会平均分配到可用的线程上
- 增强编译完成后返回的信息,除`instruction`外,将`lowered_function`、`source_code`、`source_ptx`返回,供上层进一步使用
2. Debug信息:
- 新增`FLAGS_ cinn_dump_group_lowered_func`、`FLAGS_cinn_dump_group_source_code`、`FLAGS_ cinn_dump_group_ptx`、`FLAGS_ cinn_dump_group_instruction`,可分别按`fusion_groups`储存编译的每个阶段中的中间代码
- 重新整理`graph_visualization`,所有的可视化图、单测代码均能正确分组储存
3. Bug修复:
- 修复`MakeDirectory`不能正确创建文件夹的问题
4. 其他:
- 清除了一些无用代码
Showing
想要评论请 注册 或 登录