Skip to content

  • 体验新版
    • 正在加载...
  • 登录
  • PaddlePaddle
  • Paddle
  • Issue
  • #5820

P
Paddle
  • 项目概览

PaddlePaddle / Paddle
大约 2 年 前同步成功

通知 2325
Star 20933
Fork 5424
  • 代码
    • 文件
    • 提交
    • 分支
    • Tags
    • 贡献者
    • 分支图
    • Diff
  • Issue 1423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
  • Wiki 0
    • Wiki
  • 分析
    • 仓库
    • DevOps
  • 项目成员
  • Pages
P
Paddle
  • 项目概览
    • 项目概览
    • 详情
    • 发布
  • 仓库
    • 仓库
    • 文件
    • 提交
    • 分支
    • 标签
    • 贡献者
    • 分支图
    • 比较
  • Issue 1,423
    • Issue 1,423
    • 列表
    • 看板
    • 标记
    • 里程碑
  • 合并请求 543
    • 合并请求 543
  • Pages
  • 分析
    • 分析
    • 仓库分析
    • DevOps
  • Wiki 0
    • Wiki
  • 成员
    • 成员
  • 收起侧边栏
  • 动态
  • 分支图
  • 创建新Issue
  • 提交
  • Issue看板
已关闭
开放中
Opened 11月 22, 2017 by saxon_zh@saxon_zhGuest

如何构建自己的dictionary以及技巧

Created by: xiahan

我跑了关于paddle/model下text classification,看例子是可以提供自己的词典也可以paddle根据训练数据自动构建词典(根据词频)。对于词典我有几个疑问。 1)根据词频构建词典,词频的高低是否本身会影响到分类的结果?例如我有些英文单词是the ,虽然词频很高,但是其实没啥分类的实际意义,反倒是一些词频没有the这么高的单词反而更具有意义。 2)例子中如果不使用自己的数据,你们会下载已经有的数据集,包括词典,测试数据以及训练数据。我翻看了下该数据集的词典,词典为一行一个词,并没有词频。如果我自己构建自己的词典,而非你们自动构建的,我是否需要列出词频信息呢? 3)是否需要针对不同的应用场景做不同的词库?虽然我的训练数据都是可以用英文单词来表示,对于我的不同应用场景,我是应该有针对该场景的专门的词典呢还是所有的应用场景其实可以用相同的词典?例如我是针对对于电影的正面反面的评价这个应用场景,我的词典里会包含film,good之类的词。如果我是做体育类某个评论的应用场景,我是否应该把film这个词添加到词典呢?film这个词其实对我这个应用场景没事么用。或许都可以,只是会影响到分类的结果的正确率?

指派人
分配到
无
里程碑
无
分配里程碑
工时统计
无
截止日期
无
标识: paddlepaddle/Paddle#5820
渝ICP备2023009037号

京公网安备11010502055752号

网络110报警服务 Powered by GitLab CE v13.7
开源知识
Git 入门 Pro Git 电子书 在线学 Git
Markdown 基础入门 IT 技术知识开源图谱
帮助
使用手册 反馈建议 博客
《GitCode 隐私声明》 《GitCode 服务条款》 关于GitCode
Powered by GitLab CE v13.7