字袋易于生成,但远非完美。假设我们平等的统计所有单词,有些不需要的词也会被强调。在第三章提过一个例子,Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中,“Eama”和“raven”都出现了3词,但是“the”的出现高达8次,“and”出现了次,另外“it”以及“was”也都出现了4词。仅仅通过简单的频率统计,两个主要角色并不突出。这是有问题的。
字袋易于生成,但远非完美。假设我们平等的统计所有单词,有些不需要的词也会被强调。在第三章提过一个例子,Emma and the raven。我们希望在文档表示中能强调两个主要角色。示例中,“Eama”和“raven”都出现了3词,但是“the”的出现高达8次,“and”出现了次,另外“it”以及“was”也都出现了4词。仅仅通过简单的频率统计,两个主要角色并不突出。这是有问题的。