7得票2回答
如何使用R提取包含特定人名的句子

我正在使用R语言从文本中提取特定人名的句子,以下是一段示例文本: 他在蒂宾根大学担任改革派反对者,接受了马丁·路德推荐的由其曾祖父约翰·劳克林推荐的威滕贝格大学的聘书。梅兰希东在21岁时成为威滕贝格的希腊语教授。他主要研究圣经,特别是保罗的福音信仰。他作为旁观者参加了莱比锡的争论(1519...

26得票3回答
如何检测两个句子是否相似?

我希望计算任意两个句子之间的相似程度。例如: 一位数学家找到了这个问题的解决方案。 这个问题是由一位年轻的数学家解决的。 我可以使用标记器、词干提取器和解析器,但我不知道如何检测这些句子是否相似。

9得票5回答
NLP用于找到实体之间的关系

我目前的理解是,可以使用OpenNLP、Stanford NLP等工具包从文本文档中提取实体。 但是,有没有一种方法可以找到这些实体之间的关系呢? 例如,请考虑以下文本: “正如你们中的一些人可能知道的那样,上周我在欧洲高能物理实验室CERN度过了。那里是著名的希格斯玻色子于去年7月被发...

7得票2回答
从非结构化文本中提取人名

我有一堆账单和发票,所以文本中没有上下文(也就是说它们没有讲述一个故事)。我想从这些帐单中提取人名。我尝试了OpenNLP,但由于没有上下文,所以训练模型的质量不好。那么第一个问题是:我能不能训练只包含人名而没有上下文的模型?如果可能的话,你能给我一篇好的文章,告诉我如何构建新模型(大多数我阅...

13得票3回答
如何使用Open nlp的chunking解析器提取名词短语

我是自然语言处理的新手。我需要从文本中提取名词短语。到目前为止,我已经使用OpenNLP的分块解析器来解析我的文本以获取树形结构。但我无法从树形结构中提取名词短语,是否有任何在OpenNLP中的正则表达式模式可以用来提取名词短语。 以下是我正在使用的代码 InputStream is ...

9得票2回答
OpenNLP中训练时的'cut-off'和'iteration'是什么意思?

cut-off 和 iteration 在 OpenNLP 中的训练中有什么含义?或者说在自然语言处理中都是怎样的概念。我只需要这些术语的通俗易懂的解释。就我所知,iteration 指的是算法重复迭代的次数,而 cut-off 是一个阈值,如果文本某个特定类别的值高于这个阈值,那么它将被映射...

18得票3回答
如何在Java中使用OpenNLP?

我想要对一句英文进行词性标注并进行一些处理。我希望使用openNLP。我已经安装了它。 当我执行以下命令时:I:\Workshop\Programming\nlp\opennlp-tools-1.5.0-bin\opennlp-tools-1.5.0>java -jar opennlp...

9得票2回答
最佳方法确认一个实体

我希望了解以下问题的最佳解决方案。 我拥有类似于简历/履历的文档,需要提取实体(姓名、姓氏、生日、城市、邮编等)。 为了提取这些实体,我正在结合不同的查找器(正则表达式、词典等)。 这些查找器没有问题,但是我正在寻找一种方法/算法或类似的东西来确认这些实体。 所谓“确认”,是指我必须在...

16得票4回答
使用自然语言处理进行句子压缩

使用机器翻译,我可以获得一个非常压缩的句子版本,例如我真的很想喝一杯美味可口的咖啡将被翻译为我想喝咖啡。是否有任何NLP引擎提供这样的功能? 我找到了一些进行释义生成和句子压缩的研究论文。但是是否有已经实现了这个功能的库?

8得票3回答
OpenNLP的德语maxent模型使用什么标记集?

目前我正在使用OpenNLP工具对German句子进行PoS标记,使用他们下载站点上列出的maxent模型: de POS Tagger Maxent model trained on tiger corpus. de-pos-maxent.bin 这个非常有效...