提交 382503fc 编写于 作者: Y YangZhou

update READMe

上级 bf3eb498
# 背景
模型任务与模型间接请参见 examples/esc50, 本目录是为了校验和测试 paddle.audio 的feature, backend等相关模块而建立.
TESS音频情绪分类任务.
从而校验和测试 paddle.audio 的feature, backend等相关模块.
本实验采用了PaddleSpeech提供了PANNs的CNN14的预训练模型进行finetune:
- CNN14: 该模型主要包含12个卷积层和2个全连接层,模型参数的数量为 79.6M,embbedding维度是 2048。
`PANNs`([PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition](https://arxiv.org/pdf/1912.10211.pdf))是基于Audioset数据集训练的声音分类/识别的模型。经过预训练后,模型可以用于提取音频的embbedding。本示例将使用`PANNs`的预训练模型Finetune完成声音分类的任务。
## 数据集
......@@ -8,20 +14,14 @@
## 模型指标
根据 `TESS` 提供的fold信息,对数据集进行 5-fold 的 fine-tune 2 epoch 训练和评估,dev准确率如下:
|Model|feat_type|Acc|
|--|--|--|
|CNN14| mfcc | 0.8304 |
|CNN14| logmelspectrogram | 0.9893 |
|CNN14| spectrogram| 0.1304 |
|CNN14| melspectrogram| 0.1339 |
根据 `TESS` 提供的fold信息,对数据集进行 5-fold 的 fine-tune 训练和评估,dev准确率如下:
因为是功能验证,所以只config中训练了 2 个epoch.
log_melspectrogram feature 在迭代 3 个epoch后, acc可以达到0.9983%.
mfcc feature 在迭代3个epoch后, acc可以达到0.9983%.
spectrogram feature 在迭代11个epoch后,acc可达0.95%.
melspectrogram feature 在迭代17个epoch后,acc可到0.9375%.
|Model|feat_type|Acc| note |
|--|--|--| -- |
|CNN14| mfcc | 0.9929 |3 epoch |
|CNN14| logmelspectrogram | 0.9983 | 3 epoch |
|CNN14| spectrogram| 0.95 | 11 epoch |
|CNN14| melspectrogram| 0.9375 | 17 epoch |
### 模型训练
......
......@@ -23,7 +23,7 @@ feature:
n_mels: 64
training:
epochs: 2
epochs: 5
learning_rate: 0.0005
num_workers: 2
batch_size: 128
......
......@@ -23,7 +23,7 @@ feature:
n_mels: 64
training:
epochs: 2
epochs: 10
learning_rate: 0.0005
num_workers: 2
batch_size: 128
......
......@@ -24,7 +24,7 @@ feature:
n_mels: 64
training:
epochs: 2
epochs: 5
learning_rate: 0.0005
num_workers: 2
batch_size: 128
......
......@@ -19,7 +19,7 @@ feature:
window: 'hann'
training:
epochs: 2
epochs: 10
learning_rate: 0.0005
num_workers: 2
batch_size: 128
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册