文本分类 - 使用词干处理器会降低结果的准确性吗?

3

有一篇关于阿拉伯情感分析的文章在这里

在第5页的开头,它说:

"实验还表明,在特征提取和分类之前对词干进行处理几乎总是会降低结果。"

同一页后面,他们指出:

"...并使用阿拉伯轻型词干处理器来处理单词"

嗯,我认为在文本分类之前应始终使用词干处理器/词形还原器,为什么他说这会降低结果?

谢谢:)

1个回答

5
我不懂阿拉伯语,它可能在许多方面很具体,我的回答是关于英语的。在文本分类之前,我认为词干提取器/词形还原器总是被使用,为什么他说这会降低结果的质量?并不是所有情况都需要使用词干提取器/词形还原器,完全取决于任务。如果你想从文本中提取一些一般概念,则提取词干/词形还原是一个好的步骤。但在短块的分析中,每个单词都很重要,词干提取只会破坏其意义。特别是在情感分析中,词干提取可能会破坏单词的情感。

嗨@lejlot :) 首先:谢谢。一个问题:“在短块的分析中,词干提取只是破坏了意义”?!你能否提供解释/示例/来源?我给出第二个引用是为了表明他们最终确实使用了词干提取器...即使他们不应该这样做?(顺便说一句:我也不懂阿拉伯语,但我想主要区别在于它是一种非常屈折的语言)。 - Cheshie
词干提取只是一组缩短单词的规则,这个过程中可能会失去其含义。这有什么令人惊讶的呢?任何减少数据量的操作都会减少信息量。考虑兰卡斯特词干提取器和单词:hard、harder、hardening、hards;它们在英语中具有完全不同的含义,但它们都有相同的词干“hard”,这使得这个过程失去了很多信息。 - lejlot
关于引用 - 我没有阅读这篇论文,因为它对我来说远非有趣;但首先,他们声明它几乎总是会降低结果,而不是总是,也许在他们的情况下没有发生,所以他们可以进行词干提取,并且他们声称他们使用的是轻量级词干提取器,这可能是指意义的丢失。例如,Wordnet词形还原器比兰开斯特词干提取器要轻得多。 - lejlot
它仍在使用?我猜这并不意味着太多,但我读了很多文章,也记不起看到过没有使用词干提取的文本分类。你有吗?再次感谢@lejlot。 - Cheshie
是的,我的评论指出,在那里可能是这种情况,但关键点可能是 “轻量级”。我看过许多这样的分类(不采用词干),尤其是现代方法基于比简单的词袋表示更先进的模型,但 SO 不是进行此类讨论的地方。 - lejlot
好的...如果你有这样一篇文章或者类似的东西(最好是一个词袋模型,不用进行词干提取),我会非常感激。谢谢 @lejlot :) - Cheshie

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接