spaCy标记.tag_完整列表

16
以下是 spaCytoken.tag_ 的官方文档:
一个精细的、更详细的标签,代表了单词类别和一些基本的形态学信息。这些标签主要设计用于后续的模型特征,特别是句法分析器。它们是与语言和树库有关的。标注器被训练来预测这些精细的标签,然后使用映射表将它们缩减为粗略的.pos标签。
但它没有列出所有可用的标签及其解释。我在哪里可以找到它?
6个回答

35

最后,我在 spaCy 的源代码中找到了它:glossary.py。这个链接解释了不同标签的含义。


4
你有没有找到一种编程方式可以从Spacy获取这张地图? - stan0
4
回复我的评论 - Tokenizer 有正确的方法 - nlp.tokenizer.vocab.morphology.tag_map - stan0
@thuzhf,“.”和“X”属于任何词性吗?还是只被视为“外语”或“未知”? - Abu Shoeb
3
这是最新链接:https://github.com/explosion/spaCy/blob/master/spacy/glossary.py。 - 190290000 Ruble Man
1
我知道现在有点晚了,但你可以直接使用 from spacy.glossary import GLOSSARY lookup_dict = GLOSSARY - artemis
嗨,我在2023年,花了很多时间才找到这个词汇表的信息!我疯狂地在谷歌上搜索,甚至尝试使用GPT来为我回答。谢谢! - Breno

6
可用的token.tag_值是与语言相关的。这里的语言不是指英语或葡萄牙语,而是'en_core_web_sm'或'pt_core_news_sm'之类的语言模型特定。换句话说,它们是语言模型特定的,并在TAG_MAP中定义,该MAP是可自定义和可训练的。如果您不自定义,则将使用该语言的默认TAG_MAP。
截至本答案撰写时,spacy.io/models列出了所有预先训练模型及其标签方案。
现在,进入解释。如果您正在处理英语或德语文本,那么您很幸运!您可以使用spacy.explain()或访问其在github上的词汇表获取完整列表。如果您正在处理其他语言,token.pos_值始终是通用依赖关系的,无论哪种语言都适用。
最后,如果您正在处理其他语言,要获取标记的完整解释,您需要在所需模型的models页面中查找来自源的信息。例如,对于葡萄牙语,我需要在用于训练模型的葡萄牙语UD Bosque Corpus中跟踪标记的解释。

4

以下是标签列表:

TAG_MAP = [
    ".",        
    ",",        
    "-LRB-",    
    "-RRB-",    
    "``",       
    "\"\"",     
    "''",       
    ",",        
    "$",        
    "#",        
    "AFX",      
    "CC",       
    "CD",       
    "DT",       
    "EX",       
    "FW",       
    "HYPH",     
    "IN",       
    "JJ",       
    "JJR",      
    "JJS",      
    "LS",       
    "MD",       
    "NIL",      
    "NN",       
    "NNP",      
    "NNPS",     
    "NNS",   
    "PDT",   
    "POS",   
    "PRP",   
    "PRP$",  
    "RB",    
    "RBR",   
    "RBS",   
    "RP",    
    "SP",    
    "SYM",   
    "TO",    
    "UH",    
    "VB",    
    "VBD",  
    "VBG",  
    "VBN",  
    "VBP",  
    "VBZ",  
    "WDT",  
    "WP",   
    "WP$",  
    "WRB",  
    "ADD",  
    "NFP",   
    "GW",    
    "XX",    
    "BES",   
    "HVS",   
    "_SP",   
]

感谢您在此处提供列表。 X 属于哪些词性,还是只被视为“外语”或“未知”? - Abu Shoeb

1

1

0

您可以使用以下内容:

dir(spacy.parts_of_speech)


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接