如何使spaCy对大小写不敏感

Question

如何使spaCy对大小写不敏感

case-sensitivespacynamed-entity-recognition

6

如何在查找实体名称时使spaCy不区分大小写？

是否有需要添加的代码片段或其他东西，因为问题可能提到未使用大写的实体？

def analyseQuestion(question):

    doc = nlp(question)
    entity=doc.ents 

    return entity

print(analyseQuestion("what is the best seller of Nicholas Sparks "))  
print(analyseQuestion("what is the best seller of nicholas sparks "))

这提供了

(Nicholas Sparks,)  
()

- yac

2个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Mr. Robot Jr. · Answer 1

这是旧的，但希望这对于任何遇到类似问题的人有所帮助。

你可以使用一个truecaser来改善结果。

https://pypi.org/project/truecase/

- happy_marmoset · Answer 2

这很容易。你只需要在函数中添加一个预处理步骤question.lower()：

def analyseQuestion(question):

    # Preprocess question to make further analysis case-insensetive
    question = question.lower()

    doc = nlp(question)
    entity=doc.ents 

    return entity

这个解决方案受到了来自Rasa NLU库的此代码的启发。然而，对于非英语（非ASCII）文本可能无法正常工作。针对这种情况，您可以尝试：

question = question.decode('utf8').lower().encode('utf8')

然而，spacy中的NER模块在某种程度上取决于令牌的大小写，因为它是一个统计训练模型，所以您可能会遇到一些差异。请参考此链接。