11得票2回答
如何最佳地将词典(词表)包含在spaCy中以改进实体识别(NER)?

我目前正在替换一个基于nltk实体提取和正则表达式匹配的系统,其中有几个命名实体字典。这些词典实体既是常见类型(如PERSON(员工)等),也是自定义类型(例如SKILL)。我想使用预训练的spaCy模型并以某种方式包含我的词典,以提高NER的准确性。以下是我对可能方法的想法: 使用spa...

10得票1回答
如何在OpenNLP中训练命名实体识别器?

好的,我有下面的代码来训练OpenNLP的NER标识符 FileReader fileReader = new FileReader("train.txt"); ObjectStream fileStream = new PlainTextByLineStream(fileReader); ...

10得票4回答
NER模型是用于在简历/履历中查找人名的。

我刚刚开始使用斯坦福CoreNLP,我想构建一个自定义的命名实体识别模型来查找人名。不幸的是,我没有找到一个适用于意大利语的好的 ner 模型。我需要在简历/履历表文档中查找这些实体。问题在于这样的文档可能具有不同的结构,例如我可以有:CASE 1- Name: John - Surname...

10得票4回答
如何使用Python NLTK加速Stanford NER的命名实体识别?

首先,我将文件内容分词成句子,然后对每个句子调用Stanford NER。但这个过程非常缓慢。我知道如果我将其调用整个文件内容,速度会更快,但我正在对每个句子进行调用,因为我想在命名实体识别之前和之后索引每个句子。st = NERTagger('stanford-ner/classifiers...

10得票3回答
从文本中提取位置的方法?

有哪些推荐的从自由文本中提取位置信息的方法? 我可以考虑使用正则表达式规则,例如“在地点的单词……”。但是除此之外还有更好的方法吗? 另外,我可以考虑使用查找哈希表来获取国家和城市的名称,然后将从文本中提取的每个标记与哈希表的内容进行比较。 是否有人知道更好的方法? 编辑:我正在尝试从...

10得票3回答
用正则表达式进行命名实体识别:NLTK

我一直在使用NLTK工具包。我经常遇到这个问题,并在网上搜索了解决方案,但没有一个令人满意的答案。所以我把我的问题放在这里。 很多时候,命名实体识别(NER)不会将连续的NNP标记为一个NE。我认为编辑NER以使用RegexpTagger也可以改善NER。 示例: 输入: 巴拉克...

10得票1回答
使用NLP框架识别完整/部分地址

我想知道使用NLP框架从非结构化文本中提取部分(不包括城市)或完整的邮政地址需要多少工作量?NLP框架在这方面效率如何?此外,训练命名实体识别模块以匹配新位置有多难?

10得票3回答
能否在Spacy命名实体识别中获得置信度评分?

我需要获得Spacy NER预测的置信度分数。 CSV文件 Text,Amount & Nature,Percent of Class "T. Rowe Price Associates, Inc.","28,223,360 (1)",8.7% (1) 100 E. Pratt St...

10得票5回答
将SpaCy格式的命名实体识别转换为IOB格式

我有已经用SpaCy格式标记的数据。例如:("Who is Shaka Khan?", {"entities": [(7, 17, "PERSON")]}), ("I like London and Berlin.", {"entities": [(7, 13, "LOC"), (18, 24...

9得票1回答
通过使用NLTK进行块状关系提取

我正在尝试按照NLTK书籍第7章的要求使用NLTK的级联分块器。但是,当执行复杂的分块操作时,我遇到了一些问题。 让我们从这个短语开始: "adventure movies between 2000 and 2015 featuring performances by daniel cra...