analysis.md 1.8 KB
Newer Older
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
# 数据集分析

## paddlex.datasets.analysis.Seg
```python
paddlex.datasets.analysis.Seg(data_dir, file_list, label_list)
```

构建统计分析语义分类数据集的分析器。

> **参数**
> > * **data_dir** (str): 数据集所在的目录路径。  
> > * **file_list** (str): 描述数据集图片文件和类别id的文件路径(文本内每行路径为相对`data_dir`的相对路径)。  
> > * **label_list** (str): 描述数据集包含的类别信息文件路径。  

### analysis
```python
analysis(self)
```

Seg分析器的分析接口,完成以下信息的分析统计:

> * 图像数量
> * 图像最大和最小的尺寸
> * 图像通道数量
> * 图像各通道的最小值和最大值
> * 图像各通道的像素值分布
> * 图像各通道归一化后的均值和方差
> * 标注图中各类别的数量及比重

30
[代码示例](https://github.com/PaddlePaddle/PaddleX/blob/develop/examples/multi-channel_remote_sensing/tools/analysis.py)
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45

[统计信息示例](../../examples/multi-channel_remote_sensing/analysis.html#id2)

### cal_clipped_mean_std
```python
cal_clipped_mean_std(self, clip_min_value, clip_max_value, data_info_file)
```

Seg分析器用于计算图像截断后的均值和方差的接口。

> **参数**
> > * **clip_min_value** (list):  截断的下限,小于min_val的数值均设为min_val。
> > * **clip_max_value** (list): 截断的上限,大于max_val的数值均设为max_val。
> > * **data_info_file** (str): 在analysis()接口中保存的分析结果文件(名为`train_information.pkl`)的路径。

46
[代码示例](https://github.com/PaddlePaddle/PaddleX/blob/develop/examples/multi-channel_remote_sensing/tools/cal_clipped_mean_std.py)
47 48

[计算结果示例](../../examples/multi-channel_remote_sensing/analysis.html#id4)