得票数最多 'n-gram' 问题 - 第6页

关联标签

8得票3回答

字节、字符、词语——哪种粒度适合用于n-grams？

至少有3种类型的n-gram可用于表示文本文档：字节级n-gram 字符级n-gram 词级n-gram 我不确定在特定任务（聚类，分类等）中应该使用哪一种。我在某个地方读到，当文本包含拼写错误时，字符级n-gram比词级n-gram更受青睐，这样“Mary loves dogs”就...

nlpdata-miningtext-miningn-gram

8得票2回答

理解循环多项式哈希碰撞

我有一个代码，使用循环多项式滚动哈希（Buzhash）计算源代码的n-gram哈希值。如果我使用小的哈希值（7-8位），那么会出现一些碰撞，即不同的n-gram映射到相同的哈希值。如果我将哈希值中的位数增加到31，那么就没有碰撞了——所有的n-gram都映射到不同的哈希值。我想知道为什么会...

hashn-gramhash-collision

8得票5回答

考虑QWERTY键盘布局的随机键盘击键检测

最近一次维基百科破坏检测比赛的获胜者建议，可以通过“考虑QWERTY键盘布局检测随机键盘敲击”来提高检测效果。例如：woijf qoeoifwjf oiiwjf oiwj pfowjfoiwjfo oiwjfoewoh 是否有已经实现这个功能的软件（最好是免费且开源）？如果没有，是否...

algorithmn-gramqwertytext-classification

8得票2回答

尝试在Elasticsearch中设置max_gram和min_gram

我正在尝试在Ubuntu 16.04 EC2服务器上部署一个Ruby on Rails应用程序，但是在Elasticsearch中关于max_gram和min_gram之间的差异出现了错误。我还没有任何关于Elasticsearch方面的经验，所以我完全迷失了方向，我需要一些指导来解决这个问题...

elasticsearchn-gramelasticsearch-analyzers

7得票1回答

在Python的TfidfVectorizer中，n-gram的令牌模式是什么？

TfidfVectorizer能否使用正则表达式来识别n-grams？当阅读scikit-learn TfidfVectorizer文档时，我发现用于识别单词级别的n-grams的模式是token_pattern=u'(?u)\b\w\w+\b'。我不太明白这是如何工作的，尤其是在双词语境...

pythonregexscikit-learnn-gram

7得票2回答

Elasticsearch - EdgeNgram + highlight + term_vector = 不好的高亮显示效果

当我使用edgengram（min=3，max=7，front）+ term_vector=with_positions_offsets的分析器时文档中有文本 =“CouchDB” 当我搜索“couc”时我的高亮显示在“cou”而不是“couc”上看起来我的高亮只在最小匹配标...

javasearchluceneelasticsearchn-gram

7得票2回答

如何在Python的nltk中获取n元搭配和联想？

在这份文档中，有一个使用nltk.collocations.BigramAssocMeasures()、BigramCollocationFinder、nltk.collocations.TrigramAssocMeasures()和TrigramCollocationFinder的示例。 ...

pythonnlpnltkn-gramcollocation

7得票3回答

非英语语言（CJK等）中的n-gram名称分析

我正在进行人员数据库去重工作。首先，我正在遵循基本的两步过程，以避免在整个数据库上进行O(n^2)操作，如文献所述。首先，“块”-迭代整个数据集，并根据名称中存在的n-grams和缩写将每个记录分到相应的箱子中。其次，对于每个箱子中的所有记录，使用Jaro-Winkler进行比较，以获得它们...

pythonnlpsimilarityn-gramcjk

7得票1回答

在Python中使用TF-IDF、NGrams和余弦相似度进行字符串匹配

我正在进行我的第一个重要的数据科学项目。我试图在一个大的数据列表中匹配名称，将其与另一个清理过的词典对应起来。我正在使用这篇字符串匹配博客作为指南。我尝试使用两个不同的数据集。不幸的是，我似乎无法获得良好的结果，并且我认为我没有正确地应用它。代码: import pandas as ...

pythontf-idfn-gramcosine-similarity

7得票2回答

TF-IDF向量化器用于提取ngram

我该如何使用scikit-learn库中的TF-IDF向量化器提取推文的unigrams和bigrams？我想用输出结果来训练分类器。以下是scikit-learn的代码： from sklearn.feature_extraction.text import TfidfVectoriz...

pythonscikit-learnn-gramtfidfvectorizer