102得票7回答
99得票18回答
如何在Python中使用NLTK中的Stanford解析器

能否在NLTK中使用斯坦福分析器?(我不是指斯坦福词性标注。)

93得票3回答
如何使用Genia语料库训练斯坦福解析器?

我在创建Stanford Parser的新模型时遇到了一些问题。 我也下载了最新版本的Stanford:http://nlp.stanford.edu/software/lex-parser.shtml 这里提供Genia语料库的两种格式,XML和PTB(宾州树库)。 Stanford Par...

92得票3回答
有没有一个好的自然语言处理库?

我需要在我的当前模块中实现一些自然语言处理。 我正在寻找一些能够帮助我的好库。 我找到了“LingPipe”,但无法完全理解如何使用它。 基本上,我们需要实现一个功能,该应用程序可以解读以纯英文输入的客户指示(交货指令)。例如: 将于明天中午12:00接送 要求在6月10日之后交付 请勿在...

91得票4回答
模糊字符串比较

我正在努力完成一个程序,它会读入一个文件,并将每个句子与原句进行比较。与原始句子完全匹配的句子将获得1分,而与原始句子完全相反的句子将获得0分。其他模糊的句子将获得介于1和0之间的分数。 我不确定应该使用哪种操作来在Python 3中完成此操作。 我已经包含了样本文本,其中Text 1是原...

90得票4回答
使用NLTK创建新的语料库

我觉得通常对于我标题的答案是去阅读文档,但我已经翻遍了NLTK书籍,但没有找到答案。我有点新手,我有一堆.txt文件,我想能够使用NLTK为语料库提供的语料库函数nltk_data。 我尝试过PlaintextCorpusReader,但我只能做到这一步:>>>import...

89得票16回答
序数替换

我目前正在寻找一种方法,用适当的序数表示法(1st, 2nd, 3rd)替换像first、second、third这样的单词。 我已经谷歌了一个星期,没有发现任何有用的标准工具或来自NLTK的任何函数。 所以是否有任何工具可用,还是我应该手动编写一些正则表达式呢? 感谢任何建议。

88得票12回答
Python中的Twitter情感分析

我正在寻找一个开源的实现,最好是用Python编写的文本情感分析(http://en.wikipedia.org/wiki/Sentiment_analysis)。有没有人熟悉这样的开源实现可以使用? 我正在编写一个应用程序,可以搜索Twitter上的某些搜索词,比如“youtube”,并计...

87得票10回答
如何使用Bert进行长文本分类?

我们知道BERT的令牌最大长度限制为512,因此如果一篇文章的长度超过了512个令牌,比如文本中有10000个令牌,那么如何使用BERT呢?

86得票8回答
给定两个句子字符串,计算它们之间的余弦相似度。

从Python:tf-idf-cosine:查找文档相似性,可以使用tf-idf余弦计算文档相似性。不导入外部库,是否有任何方法可以计算两个字符串之间的余弦相似度? s1 = "This is a foo bar sentence ." s2 = "This sentence is simi...