45得票4回答
使用免费工具进行实体识别,并将其输入到Lucene索引中

我目前正在研究从文本中(来自网络的许多文章)提取人名、地点、技术词汇和类别的选项,然后将其馈入Lucene/ElasticSearch索引中。附加信息随后作为元数据添加,并应提高搜索的精度。 例如,当有人查询“wicket”时,他应该能够确定他是指板球运动还是Apache项目。我尝试过自己实...

26得票3回答
如何检测两个句子是否相似?

我希望计算任意两个句子之间的相似程度。例如: 一位数学家找到了这个问题的解决方案。 这个问题是由一位年轻的数学家解决的。 我可以使用标记器、词干提取器和解析器,但我不知道如何检测这些句子是否相似。

24得票4回答
在OpenNLP中训练自己的模型

我发现创建自己的openNLP模型很困难。有人能告诉我如何拥有模型吗? 训练应该如何进行?输入应该是什么,输出模型文件将存储在哪里?

23得票3回答
使用斯坦福NLP训练n-gram NER

最近,我一直在尝试使用斯坦福核心NLP训练n-gram实体。我已经按照以下教程操作 - http://nlp.stanford.edu/software/crf-faq.shtml#b 在此基础上,我只能指定单个标记及其所属的类别。请问有没有人能够指导我如何将其扩展为n-gram。我正在尝试...

18得票3回答
如何在Java中使用OpenNLP?

我想要对一句英文进行词性标注并进行一些处理。我希望使用openNLP。我已经安装了它。 当我执行以下命令时:I:\Workshop\Programming\nlp\opennlp-tools-1.5.0-bin\opennlp-tools-1.5.0>java -jar opennlp...

17得票3回答
准确度:ANNIE vs Stanford NLP vs UIMA中的OpenNLP

我的工作计划使用UIMA集群来运行文档,以提取命名实体等信息。据我所知,UIMA自带的NLP组件非常少。我已经测试了一段时间的GATE,并且对其比较熟悉。它在普通文本上表现得还不错,但是当我们将其运用到一些代表性测试数据中时,准确率会大幅下降。我们内部的文本数据有时全部是大写字母,有时全部是小...

17得票1回答
如何在OpenNLP中创建一个优秀的命名实体识别训练模型?

我刚开始学习OpenNLP。我需要创建一个简单的训练模型来识别名称实体。 在这里阅读文档https://opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind,我看到了这个简单的训练文本:<S...

16得票4回答
使用自然语言处理进行句子压缩

使用机器翻译,我可以获得一个非常压缩的句子版本,例如我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖啡。是否有任何NLP引擎提供这样的功能? 我找到了一些进行释义生成和句子压缩的研究论文。但是是否有已经实现了这个功能的库?

16得票3回答
OpenNLP Chunker 和 POS 标注结果

Java - opennlp 我是opennlp的新手,尝试分析句子并获得post tag和chunk结果,但我无法理解这些值的含义。是否有任何表格可以解释post tag和chunk结果值的完整含义? Tokens: [My, name, is, Chris, corrale, and,...

15得票1回答
Apache UIMA和Apache OpenNLP有什么不同?

我一直在进行Apache OpenNLP的能力测试,它具有句子检测、分词和命名实体识别的功能。现在当我开始查看UIMA文档时,在UIMA首页上提到了“语言识别”=>“语言特定分割”=>“句子边界检测”=>“实体检测(人名/地点等)”。 这意味着我可以使用UIMA来执行与OpenNLP相同的任...