我目前正在研究从文本中(来自网络的许多文章)提取人名、地点、技术词汇和类别的选项,然后将其馈入Lucene/ElasticSearch索引中。附加信息随后作为元数据添加,并应提高搜索的精度。 例如,当有人查询“wicket”时,他应该能够确定他是指板球运动还是Apache项目。我尝试过自己实...
我希望计算任意两个句子之间的相似程度。例如: 一位数学家找到了这个问题的解决方案。 这个问题是由一位年轻的数学家解决的。 我可以使用标记器、词干提取器和解析器,但我不知道如何检测这些句子是否相似。
最近,我一直在尝试使用斯坦福核心NLP训练n-gram实体。我已经按照以下教程操作 - http://nlp.stanford.edu/software/crf-faq.shtml#b 在此基础上,我只能指定单个标记及其所属的类别。请问有没有人能够指导我如何将其扩展为n-gram。我正在尝试...
我想要对一句英文进行词性标注并进行一些处理。我希望使用openNLP。我已经安装了它。 当我执行以下命令时:I:\Workshop\Programming\nlp\opennlp-tools-1.5.0-bin\opennlp-tools-1.5.0>java -jar opennlp...
我的工作计划使用UIMA集群来运行文档,以提取命名实体等信息。据我所知,UIMA自带的NLP组件非常少。我已经测试了一段时间的GATE,并且对其比较熟悉。它在普通文本上表现得还不错,但是当我们将其运用到一些代表性测试数据中时,准确率会大幅下降。我们内部的文本数据有时全部是大写字母,有时全部是小...
我刚开始学习OpenNLP。我需要创建一个简单的训练模型来识别名称实体。 在这里阅读文档https://opennlp.apache.org/docs/1.8.0/apidocs/opennlp-tools/opennlp/tools/namefind,我看到了这个简单的训练文本:<S...
使用机器翻译,我可以获得一个非常压缩的句子版本,例如我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖啡。是否有任何NLP引擎提供这样的功能? 我找到了一些进行释义生成和句子压缩的研究论文。但是是否有已经实现了这个功能的库?
Java - opennlp 我是opennlp的新手,尝试分析句子并获得post tag和chunk结果,但我无法理解这些值的含义。是否有任何表格可以解释post tag和chunk结果值的完整含义? Tokens: [My, name, is, Chris, corrale, and,...
我一直在进行Apache OpenNLP的能力测试,它具有句子检测、分词和命名实体识别的功能。现在当我开始查看UIMA文档时,在UIMA首页上提到了“语言识别”=>“语言特定分割”=>“句子边界检测”=>“实体检测(人名/地点等)”。 这意味着我可以使用UIMA来执行与OpenNLP相同的任...