多标签文本分类的标签个数
Created by: unstory
欢迎您对PaddleHub提出建议,非常感谢您对PaddleHub的贡献! 在留下您的建议时,辛苦您同步提供如下信息:
-
您想要增加什么新特性? 多标签文本分类的预测结果可能出现0个标签的情况。 实际使用中,多数情况下至少会给出一个标签。我看到代码中使用cross_entropy损失函数,每个标签给出了["不包含该标签","包含该标签"]的概率,当所有标签的 “不包含该标签的概率”都大于"包含该标签的概率"的时候,就会出现0标签的情况。 多标签分类的predict函数增加三个参数 min_k: 最少标签个数 max_k: 最多标签个数 threshold: 选择标签的阈值(通常取0.5) 选择标签的逻辑:
- 对output做降序排序
- 根据threshold选择标签 如果选出来的标签个数小于min_k,则选择top(min_k); 如果选出来的标签个数大于max_k,则选择top(max_k);
-
什么样的场景下需要该特性? 多数场景下,最少会给出一个标签。比如我的标注数据中,如果没有提及任何事件,通常会打上 “未提及/无/没有” 等标签,标注数据中每个样本至少会给一个标签
-
没有该特性的条件下,PaddleHub目前是否能间接满足该需求? 不能。
-
增加该特性,PaddleHub可能需要变化的部分。 PaddleHub可能需要修改损失函数,并且对输出结果做一定的调整。
-
如果可以的话,简要描述下您的解决方案 代码还没完全看懂
btw: PaddleHub版本:1.8.1 paddlepaddle版本:1.8.4