Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • PaddleHub
  • Issue
  • #838

P
PaddleHub
  • 项目概览

PaddlePaddle / PaddleHub
大约 2 年 前同步成功

通知 285
Star 12117
Fork 2091
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 200
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 4
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
P
PaddleHub
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 200
    • Issue 200
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 4
    • 合并请求 4
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板
已关闭
开放中
Opened 8月 21, 2020 by saxon_zh@saxon_zhGuest

多标签文本分类的标签个数

Created by: unstory

欢迎您对PaddleHub提出建议,非常感谢您对PaddleHub的贡献! 在留下您的建议时,辛苦您同步提供如下信息:

  • 您想要增加什么新特性? 多标签文本分类的预测结果可能出现0个标签的情况。 实际使用中,多数情况下至少会给出一个标签。我看到代码中使用cross_entropy损失函数,每个标签给出了["不包含该标签","包含该标签"]的概率,当所有标签的 “不包含该标签的概率”都大于"包含该标签的概率"的时候,就会出现0标签的情况。 多标签分类的predict函数增加三个参数 min_k: 最少标签个数 max_k: 最多标签个数 threshold: 选择标签的阈值(通常取0.5) 选择标签的逻辑:

    1. 对output做降序排序
    2. 根据threshold选择标签 如果选出来的标签个数小于min_k,则选择top(min_k); 如果选出来的标签个数大于max_k,则选择top(max_k);
  • 什么样的场景下需要该特性? 多数场景下,最少会给出一个标签。比如我的标注数据中,如果没有提及任何事件,通常会打上 “未提及/无/没有” 等标签,标注数据中每个样本至少会给一个标签

  • 没有该特性的条件下,PaddleHub目前是否能间接满足该需求? 不能。

  • 增加该特性,PaddleHub可能需要变化的部分。 PaddleHub可能需要修改损失函数,并且对输出结果做一定的调整。

  • 如果可以的话,简要描述下您的解决方案 代码还没完全看懂

btw: PaddleHub版本:1.8.1 paddlepaddle版本:1.8.4

指派人
分配到
无
里程碑
无
分配里程碑
工时统计
无
截止日期
无
标识: paddlepaddle/PaddleHub#838
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7