8得票3回答
字节、字符、词语——哪种粒度适合用于n-grams?

至少有3种类型的n-gram可用于表示文本文档: 字节级n-gram 字符级n-gram 词级n-gram 我不确定在特定任务(聚类,分类等)中应该使用哪一种。我在某个地方读到,当文本包含拼写错误时,字符级n-gram比词级n-gram更受青睐,这样“Mary loves dogs”就...

8得票2回答
理解循环多项式哈希碰撞

我有一个代码,使用循环多项式滚动哈希(Buzhash)计算源代码的n-gram哈希值。如果我使用小的哈希值(7-8位),那么会出现一些碰撞,即不同的n-gram映射到相同的哈希值。如果我将哈希值中的位数增加到31,那么就没有碰撞了——所有的n-gram都映射到不同的哈希值。 我想知道为什么会...

8得票5回答
考虑QWERTY键盘布局的随机键盘击键检测

最近一次维基百科破坏检测比赛的获胜者建议,可以通过“考虑QWERTY键盘布局检测随机键盘敲击”来提高检测效果。 例如:woijf qoeoifwjf oiiwjf oiwj pfowjfoiwjfo oiwjfoewoh 是否有已经实现这个功能的软件(最好是免费且开源)? 如果没有,是否...

8得票2回答
尝试在Elasticsearch中设置max_gram和min_gram

我正在尝试在Ubuntu 16.04 EC2服务器上部署一个Ruby on Rails应用程序,但是在Elasticsearch中关于max_gram和min_gram之间的差异出现了错误。我还没有任何关于Elasticsearch方面的经验,所以我完全迷失了方向,我需要一些指导来解决这个问题...

7得票1回答
在Python的TfidfVectorizer中,n-gram的令牌模式是什么?

TfidfVectorizer能否使用正则表达式来识别n-grams? 当阅读scikit-learn TfidfVectorizer文档时,我发现用于识别单词级别的n-grams的模式是token_pattern=u'(?u)\b\w\w+\b'。我不太明白这是如何工作的,尤其是在双词语境...

7得票2回答
Elasticsearch - EdgeNgram + highlight + term_vector = 不好的高亮显示效果

当我使用edgengram(min=3,max=7,front)+ term_vector=with_positions_offsets的分析器时 文档中有文本 =“CouchDB” 当我搜索“couc”时 我的高亮显示在“cou”而不是“couc”上 看起来我的高亮只在最小匹配标...

7得票2回答
如何在Python的nltk中获取n元搭配和联想?

在这份文档中,有一个使用nltk.collocations.BigramAssocMeasures()、BigramCollocationFinder、nltk.collocations.TrigramAssocMeasures()和TrigramCollocationFinder的示例。 ...

7得票3回答
非英语语言(CJK等)中的n-gram名称分析

我正在进行人员数据库去重工作。首先,我正在遵循基本的两步过程,以避免在整个数据库上进行O(n^2)操作,如文献所述。首先,“块”-迭代整个数据集,并根据名称中存在的n-grams和缩写将每个记录分到相应的箱子中。 其次,对于每个箱子中的所有记录,使用Jaro-Winkler进行比较,以获得它们...

7得票1回答
在Python中使用TF-IDF、NGrams和余弦相似度进行字符串匹配

我正在进行我的第一个重要的数据科学项目。我试图在一个大的数据列表中匹配名称,将其与另一个清理过的词典对应起来。我正在使用这篇字符串匹配博客作为指南。 我尝试使用两个不同的数据集。不幸的是,我似乎无法获得良好的结果,并且我认为我没有正确地应用它。 代码: import pandas as ...

7得票2回答
TF-IDF向量化器用于提取ngram

我该如何使用scikit-learn库中的TF-IDF向量化器提取推文的unigrams和bigrams?我想用输出结果来训练分类器。 以下是scikit-learn的代码: from sklearn.feature_extraction.text import TfidfVectoriz...