8得票1回答
Java中的意大利语词干库

我正在寻找一个Java库或其他工具来对意大利语单词进行词干提取。 目的是比较意大利语单词。目前,“attacco”,“attacchi”,“attaccare”等单词被认为是不同的,但实际上我想要得到真正的比较结果。 我发现了一些像Lucene、snowball.tartarus.org等...

8得票4回答
JavaScript中的停用词去除

你好,我正在寻找一个可以在Javascript中删除停用词的库,我的最终目标是计算tf-idf并将给定的文档转换成向量空间,所有这些都需要使用Javascript。请问有哪个库可以帮助我实现这个功能?如果只是用于删除停用词的库也非常好。

7得票2回答
Snowball词干提取器只对最后一个单词进行词干提取

我希望使用R语言的tm包对一个纯文本文档的语料库进行词干提取。但是,当我将SnowballStemmer函数应用于语料库中的所有文档时,只有每个文档的最后一个单词被提取了。 library(tm) library(Snowball) library(RWeka) library(rJava)...

7得票1回答
SQL Server与MySQL的区别:CONTAINS(*,'FORMSOF(THESAURUS,word)')

我很震惊。 在过去的3-4天里,我一直在思考如何在MySQL中实现词干提取(和同义词搜索),但当我看到SQL Server中的查询非常容易时,我感到非常震惊: Select * from tab where CONTAINS(*,'FORMSOF(THESAURUS,word)') M...

7得票3回答
我应该同时进行词形还原和词干提取吗?

我正在用Python编写一个文本分类系统。这是我规范化每个标记的方法: lem, stem = WordNetLemmatizer(), PorterStemmer() for doc in corpus: for word in doc: lemma = stem....

7得票1回答
寻找包含英文单词及其不同形式的数据库或文本文件

我正在进行一个项目,需要获取给定单词的词根(即词干处理)。众所周知,不使用词典的词干算法并不准确。我尝试了WordNet,但它不适合我的项目。我发现了phpmorphy项目,但它不包括Java API。 目前我正在寻找一个包含英语单词及其不同形式的数据库或文本文件,例如: run runn...

7得票2回答
什么是最好的“即插即用”词干算法?

我需要一个好的词干算法来完成我的项目。建议我查看Porter Stemmer。但是,当我查看了Porter stemmer页面后,发现它已被弃用,现在更推荐使用“Snowball” stemmer。 我需要一个好的词干器,但我真的不能花太多时间实现(或优化)自己的词干器。哪个是最好的“即插即...

7得票3回答
如何在R中优化词干提取和拼写检查的性能?

我有大约1.4百万份文件,每个文件平均包含字符数为(Median:250和Mean:470)。 我希望在对它们进行分类之前,执行拼写检查和词干处理。 模拟文档: sentence <- "We aree drivng as fast as we drove yestrday or ...