467得票18回答
谷歌的“你是不是想找”的算法是如何工作的?

我正在为一个投资组合管理工具开发一个内部网站。其中有很多文本数据,公司名称等。我对一些搜索引擎能够快速响应查询并给出"Did you mean: xxxx"的回答印象深刻。 我需要能够智能地接收用户查询并在高度可能存在替代答案时,不仅提供原始搜索结果,还要提供"Did you mean?"的...

283得票14回答
如何计算两个文本文件之间的相似度?

我希望参与一个自然语言处理(NLP)项目,使用任何编程语言都可以(不过我更喜欢Python)。 我想要取两个文档并确定它们之间的相似度。

205得票18回答
Googletrans停止工作,出现错误:“NoneType”对象没有属性“group”。

我尝试使用googletrans,并且一直表现良好。但从今天早上开始,我遇到了以下错误。我查看了多篇来自stackoverflow和其他网站的帖子,并发现可能我的IP地址被禁止使用该服务一段时间。我尝试使用具有不同IP地址的多个服务提供商的互联网,仍然面临同样的问题?我还尝试在不同的笔记本电脑...

204得票14回答
Lemmatization和Stemming有什么区别?

我该何时使用它们? 此外...NLTK词形还原是否依赖于词性?如果依赖于词性,那么准确度不是更高吗?

187得票16回答
如何确定一段文本的语言?

我想要获得这个:Input text: "ру́сский язы́к" Output text: "Russian" Input text: "中文" Output text: "Chinese" Inp...

185得票10回答
Java Stanford NLP:词性标签是什么?

斯坦福自然语言处理演示在这里。它的输出如下:Colorless/JJ green/JJ ideas/NNS sleep/VBP furiously/RB ./. 词性标注的含义是什么?我找不到官方列表。这是斯坦福自己的系统,还是他们使用通用标签?(例如,JJ是什么?) 另外,当我遍历句子时,...

173得票9回答
tf.nn.embedding_lookup函数是用来做什么的?

tf.nn.embedding_lookup(params, ids, partition_strategy='mod', name=None) 我无法理解这个函数的职责。它是否像查找表一样?这意味着返回与每个id(在ids中)对应的参数? 例如,在skip-gram模型中,如果我们使用tf...

164得票13回答
如何使用NLTK分词器去除标点符号?

我刚开始使用NLTK,不太明白如何从文本中获取单词列表。如果我使用 nltk.word_tokenize(),会得到一个包含单词和标点符号的列表。但我只需要单词,如何去掉标点符号?此外,word_tokenize 在处理多个句子时存在问题:句号被添加到最后一个单词。

156得票17回答
在一个单词中检测音节

我需要找到一种相当有效的方法来检测单词中的音节。例如, Invisible -> in-vi-sib-le 有一些可以使用的划分音节规则: V CV VC CVC CCV CCCV CVCC *其中V表示元音,C表示辅音。例如, Pronunciation (5 Pro-nun-ci...

143得票4回答
如何使用Scikit-Learn计算多类情况下的精确率、召回率、准确率和F1分数?

我正在处理情感分析问题,数据如下所示:我正在处理情感分析问题,数据如下所示: label instances 5 1190 4 838 3 239 1 204 2 127 我的数据不平衡,因为有1190个实例被...