如何构建自己的dictionary以及技巧
Created by: xiahan
我跑了关于paddle/model下text classification,看例子是可以提供自己的词典也可以paddle根据训练数据自动构建词典(根据词频)。对于词典我有几个疑问。 1)根据词频构建词典,词频的高低是否本身会影响到分类的结果?例如我有些英文单词是the ,虽然词频很高,但是其实没啥分类的实际意义,反倒是一些词频没有the这么高的单词反而更具有意义。 2)例子中如果不使用自己的数据,你们会下载已经有的数据集,包括词典,测试数据以及训练数据。我翻看了下该数据集的词典,词典为一行一个词,并没有词频。如果我自己构建自己的词典,而非你们自动构建的,我是否需要列出词频信息呢? 3)是否需要针对不同的应用场景做不同的词库?虽然我的训练数据都是可以用英文单词来表示,对于我的不同应用场景,我是应该有针对该场景的专门的词典呢还是所有的应用场景其实可以用相同的词典?例如我是针对对于电影的正面反面的评价这个应用场景,我的词典里会包含film,good之类的词。如果我是做体育类某个评论的应用场景,我是否应该把film这个词添加到词典呢?film这个词其实对我这个应用场景没事么用。或许都可以,只是会影响到分类的结果的正确率?