我正在寻找一款高性能的Java模糊字符串搜索库。 有许多算法可用于查找相似的字符串,如Levenshtein距离、Daitch-Mokotoff Soundex、n-gram等。 存在哪些Java实现?它们各自的优缺点是什么?我知道Lucene,还有其他解决方案吗?还是Lucene最好? ...
自然语言处理(NLP),尤其是英语,已经发展到了如果存在“完美”的词形还原器,则词干提取将成为一种过时的技术。这是因为词干提取器将单词/标记的表面形式更改为一些无意义的词干。 但是,“完美”的词形还原器的定义是有问题的,因为不同的NLP任务需要不同水平的词形还原。例如:在动词/名词/形容词形...
我正在使用nltk工具包尝试通过去除停用词来处理用户输入的文本,但是在去除停用词后,“and”、“or”、“not”等单词也被删除了。由于这些单词是查询文本时需要的运算符,我希望在停用词去除过程后它们仍然存在。我不知道哪些单词可以作为查询文本中的运算符,同时我还想从我的文本中删除不必要的单词。
我正在使用Java进行文档分类任务。 这两种算法都受到高度推荐,它们各自的优缺点是什么,哪种在自然语言处理任务的文献中更常用?
我正在尝试使用自然语言工具包(Natural Language Toolkit,NLTK)。 它的文档(Book和HOWTO)相当冗长,而且示例有时稍微有些高级。 有没有关于NLTK用法/应用的好的基础示例?我在想像Stream Hacker博客上的NTLK文章那样的东西。
我正在使用NLTK进行情感分析的作业实践。我使用的是Python 2.7版本,NLTK 3.0和NumPy 1.9.1版本。 以下是代码: __author__ = 'karan' import nltk import re import sys def main(): pr...
有没有一个现成的英语语法可以直接加载到NLTK中使用?我在NLTK的解析示例中搜索了一下,但似乎在句子解析之前必须手动指定语法。 非常感谢!
我使用Anaconda Python 2.7在Windows 10上进行操作。 我正在使用Keras示例训练语言模型: print('Build model...') model = Sequential() model.add(GRU(512, return_sequences=True...
spaCy将每个Document中的Token标记为一个词性(以两种不同格式存储,一个存储在Token的pos和pos_属性中,另一个存储在tag和tag_属性中),并标记其依赖于.head Token的语法依存关系(存储在dep和dep_属性中)。其中一些标签即使对于没有语言学背景的人也很容...
作为一名工程学生,我想使用Python制作一个聊天机器人。因此,我进行了大量搜索,但实际上找不到任何教我或给我构建智能聊天机器人的具体信息。 我想制作一个能够提供类似人类回复的聊天机器人(就像朋友与你聊天一样简单)。目前,我希望它只是我的笔记本电脑上的软件(以后希望在即时消息、IRC或网站上...