137得票34回答
Spacy在Windows 10和Python 3.5.3 :: Anaconda custom (64-bit)上找不到'en_core_web_sm'模型。

什么是spacy.load('en_core_web_sm')和spacy.load('en')之间的区别? 这个链接解释了不同的模型大小。但我仍然不清楚spacy.load('en_core_web_sm')和spacy.load('en')有什么区别。 spacy.load('en')对...

133得票6回答
苹果如何在电子邮件中查找日期、时间和地址?

在iOS邮件客户端中,当电子邮件包含日期、时间或位置时,文本将变成超链接,只需点击链接即可创建约会或查看地图。这不仅适用于英语邮件,也适用于其他语言。我喜欢这个功能,想了解他们是如何实现的。 一种朴素的方法是使用许多正则表达式并运行它们全部。但是,这种方法不会很好地扩展,并且仅适用于特定的语...

128得票1回答
成分句法分析器和依存句法分析器的区别

成分分析器和依存句法分析器有什么区别?它们的不同用途是什么?

123得票6回答
了解scikit CountVectorizer中的min_df和max_df参数

我有五个文本文件输入到CountVectorizer中。在指定CountVectorizer实例的min_df和max_df时,最小/最大文档频率是什么意思?它是单词在其特定文本文件中的频率还是在整个语料库(五个文本文件)中的频率? 当提供整数或浮点数作为min_df和max_df时有什么区别...

119得票2回答
自然语言处理中应该选择Java还是Python?

我想知道哪种编程语言更适合自然语言处理,是Java还是Python?我找到了许多有关此问题的问答,但在选择使用哪种语言时仍感到困惑。 如果我想要使用Java进行NLP,我想知道应该使用哪个库(LingPipe、GATE、OpenNLP、StandfordNLP);对于Python而言,大部分...

118得票4回答
Keras Tokenizer方法到底是做什么的?

有时,情况要求我们采取以下措施:from keras.preprocessing.text import Tokenizer tokenizer = Tokenizer(num_words=my_max) 然后,不可避免地,我们会诵唱这个口号:tokenizer.fit_on_texts(te...

117得票17回答
如何实现一个“你是想说”的功能?(用于IT技术)

可能是重复问题: 谷歌“你是不是想找”的算法是如何工作的? 假设您已经在网站上拥有一个搜索系统。如何实现Google在某些搜索查询中所做的“你是不是想找:<spell_checked_word>”功能?

117得票3回答
word2vec:负采样是什么意思?(通俗易懂解释)

我正在阅读下面的论文,但不太理解负采样的概念。 http://arxiv.org/pdf/1402.3722v1.pdf 有人可以帮忙吗,请?

114得票22回答
我该如何进行词干提取或词形归并?

我已经尝试了PorterStemmer和Snowball,但它们都无法处理所有单词,错过了一些非常常见的单词。 我的测试单词是:“cats running ran cactus cactuses cacti community communities”,但两者都只有不到一半的正确率。 另请...

102得票25回答
如何正确地在单词前加上"a"和"an"?

我有一个.NET应用程序,根据一个名词,我希望它能正确地在单词前加上"a"或"an"。我该怎么做? 在您认为答案仅仅是检查第一个字母是否为元音字母之前,请考虑以下短语: 一次诚实的错误(an honest mistake) 一辆二手车(a used car)