多标签文本分类的标签个数 (#838) · Issue · PaddlePaddle / PaddleHub

多标签文本分类的标签个数

Created by: unstory

欢迎您对PaddleHub提出建议，非常感谢您对PaddleHub的贡献！在留下您的建议时，辛苦您同步提供如下信息：

您想要增加什么新特性？多标签文本分类的预测结果可能出现0个标签的情况。实际使用中，多数情况下至少会给出一个标签。我看到代码中使用cross_entropy损失函数，每个标签给出了["不包含该标签","包含该标签"]的概率，当所有标签的 “不包含该标签的概率”都大于"包含该标签的概率"的时候，就会出现0标签的情况。多标签分类的predict函数增加三个参数 min_k: 最少标签个数 max_k: 最多标签个数 threshold: 选择标签的阈值(通常取0.5) 选择标签的逻辑：
1. 对output做降序排序
2. 根据threshold选择标签如果选出来的标签个数小于min_k，则选择top(min_k); 如果选出来的标签个数大于max_k，则选择top(max_k);
什么样的场景下需要该特性？多数场景下，最少会给出一个标签。比如我的标注数据中，如果没有提及任何事件，通常会打上 “未提及/无/没有” 等标签，标注数据中每个样本至少会给一个标签
没有该特性的条件下，PaddleHub目前是否能间接满足该需求？不能。
增加该特性，PaddleHub可能需要变化的部分。 PaddleHub可能需要修改损失函数，并且对输出结果做一定的调整。
如果可以的话，简要描述下您的解决方案代码还没完全看懂

btw: PaddleHub版本：1.8.1 paddlepaddle版本：1.8.4