85得票8回答
Java模糊字符串搜索库

我正在寻找一款高性能的Java模糊字符串搜索库。 有许多算法可用于查找相似的字符串,如Levenshtein距离、Daitch-Mokotoff Soundex、n-gram等。 存在哪些Java实现?它们各自的优缺点是什么?我知道Lucene,还有其他解决方案吗?还是Lucene最好? ...

81得票4回答
词干提取器与词形还原器

自然语言处理(NLP),尤其是英语,已经发展到了如果存在“完美”的词形还原器,则词干提取将成为一种过时的技术。这是因为词干提取器将单词/标记的表面形式更改为一些无意义的词干。 但是,“完美”的词形还原器的定义是有问题的,因为不同的NLP任务需要不同水平的词形还原。例如:在动词/名词/形容词形...

79得票6回答
使用NLTK进行停用词去除

我正在使用nltk工具包尝试通过去除停用词来处理用户输入的文本,但是在去除停用词后,“and”、“or”、“not”等单词也被删除了。由于这些单词是查询文本时需要的运算符,我希望在停用词去除过程后它们仍然存在。我不知道哪些单词可以作为查询文本中的运算符,同时我还想从我的文本中删除不必要的单词。

79得票1回答
Porter和Lancaster词干算法的主要区别和优点是什么?

我正在使用Java进行文档分类任务。 这两种算法都受到高度推荐,它们各自的优缺点是什么,哪种在自然语言处理任务的文献中更常用?

78得票3回答
实用的NLTK使用示例

我正在尝试使用自然语言工具包(Natural Language Toolkit,NLTK)。 它的文档(Book和HOWTO)相当冗长,而且示例有时稍微有些高级。 有没有关于NLTK用法/应用的好的基础示例?我在想像Stream Hacker博客上的NTLK文章那样的东西。

76得票1回答
Python NLTK:文件中的非ASCII字符'\xc3'(情感分析-NLP)出现语法错误。

我正在使用NLTK进行情感分析的作业实践。我使用的是Python 2.7版本,NLTK 3.0和NumPy 1.9.1版本。 以下是代码: __author__ = 'karan' import nltk import re import sys def main(): pr...

76得票8回答
NLTK中用于解析的英语语法

有没有一个现成的英语语法可以直接加载到NLTK中使用?我在NLTK的解析示例中搜索了一下,但似乎在句子解析之前必须手动指定语法。 非常感谢!

75得票12回答
如何在Keras中返回验证损失的历史记录

我使用Anaconda Python 2.7在Windows 10上进行操作。 我正在使用Keras示例训练语言模型: print('Build model...') model = Sequential() model.add(GRU(512, return_sequences=True...

74得票9回答
spaCy的词性标注和依存关系标注是什么意思?

spaCy将每个Document中的Token标记为一个词性(以两种不同格式存储,一个存储在Token的pos和pos_属性中,另一个存储在tag和tag_属性中),并标记其依赖于.head Token的语法依存关系(存储在dep和dep_属性中)。其中一些标签即使对于没有语言学背景的人也很容...

73得票2回答
开发聊天机器人的任何教程吗?

作为一名工程学生,我想使用Python制作一个聊天机器人。因此,我进行了大量搜索,但实际上找不到任何教我或给我构建智能聊天机器人的具体信息。 我想制作一个能够提供类似人类回复的聊天机器人(就像朋友与你聊天一样简单)。目前,我希望它只是我的笔记本电脑上的软件(以后希望在即时消息、IRC或网站上...