能否找到spaCy词性标注的不确定性?

8
我正在尝试构建一个非英语拼写检查器,它依赖于spaCy对句子的分类,这使得我的算法可以使用单个标记的词性标签和语法依存关系来确定错误拼写(在我的情况下更具体地说是荷兰复合词中错误的分割)。
然而,如果句子包含语法错误,spaCy会出现错误分类的情况,例如将名词分类为动词,即使被分类的单词看起来根本不像动词。
因此,我想知道是否有可能获得spaCy分类的不确定性,以便能够判断spaCy是否在处理句子时遇到困难。毕竟,如果spaCy遇到了分类问题,那么我的拼写检查器就会更加自信地认为该句子存在错误。
有没有办法知道spaCy是否认为一个句子在语法上是正确的(而不必指定我语言中所有正确句子结构的模式),或者获得分类的确定性?

根据 @Sergey Bushmanov 在评论中的建议进行编辑:

我发现https://spacy.io/api/tagger#predict,它可能有用于获取标记的概率。但我不太确定我看到什么,也不太明白文档中输出的含义。我正在使用以下代码:

import spacy

nlp = spacy.load('en_core_web_sm')
text = "This is an example sentence for the Spacy tagger."
doc = nlp(text)

docs = nlp(text, disable=['tagger'])
scores, tensors = nlp.tagger.predict([docs])

print(scores)
probs = tensors[0]
for p in probs:
    print(p, max(p), p.tolist().index(max(p)))

这段代码打印了我猜测是预测的一些整数表示,然后对于句子中的每个单词,打印了一个包含 96 个浮点数的数组。它还列出了最高分数及其位置,但似乎对于大多数单词,在 p 数组中有多个项具有相似的值。现在我想知道这些数组代表什么,以及如何从中提取每种分类的概率。


问题是:如何解释此输出以获取 spaCy 标注器找到的特定标记的具体概率?或者换句话说,上面的代码生成的输出意味着什么?


1
您可能希望查看如何提取ner标记的概率 https://support.prodi.gy/t/accessing-probabilities-in-ner/94/2。我怀疑评估pos概率可能类似。如果您找到答案,请回复! - Sergey Bushmanov
@SergeyBushmanov 我稍微研究了一下,发现有一个 nlp.entity.beam_parse 方法和一个 nlp.parser.beam_parse 方法,但是对于我想要分析的东西,似乎没有类似的方法 nlp.tagger.beam_parse。你知道在哪里可以找到更多资源,帮助我找到将这种方法应用于标记器的方法吗? - Joeytje50
它必须是 doc = nlp(text); scores, tensors = nlp.tagger.predict([doc]),我怀疑这些只是 pos 的键。仍然不是概率。 - Sergey Bushmanov
2
对于那些建议关闭这个问题的人,如果他们能分享一下关闭的原因,那就太好了。这样问题就有机会进行相应的调整。 - Sergey Bushmanov
让我们在聊天中继续这个讨论 - Sergey Bushmanov
显示剩余2条评论
1个回答

3
>>> nlp = spacy.load("en_core_web_sm")
>>> tagger = nlp.get_pipe("tagger")
>>> doc = nlp("Turn left")
>>> tagger.model.predict([doc])[0][1]
array([2.4706091e-07, 9.5889463e-06, 7.8214543e-07, 1.0063847e-06,
       1.4711081e-07, 8.9995199e-05, 1.3229882e-05, 1.7524673e-07,
       1.8464769e-05, 2.4248957e-06, 1.2176755e-06, 3.3774859e-07,
       1.3199920e-06, 1.2011193e-06, 9.4455345e-06, 2.1991875e-05,
       1.6732251e-02, 1.3964747e-07, 2.0764594e-07, 7.0467541e-07,
       1.4303426e-07, 3.7962508e-07, 1.2130551e-03, 3.1479198e-07,
       4.8646534e-08, 6.1310317e-07, 1.0607551e-05, 3.7493783e-06,
       2.7809198e-08, 1.2118652e-05, 9.9081490e-03, 1.8219554e-06,
       4.7322575e-07, 1.8754436e-05, 6.2416703e-08, 9.5453437e-08,
       1.8937490e-05, 6.3916352e-03, 3.7999314e-01, 1.5741379e-03,
       5.8360571e-01, 9.6441705e-05, 1.7456010e-04, 5.1820080e-06,
       1.2672864e-06, 9.7453121e-06, 2.4000105e-05, 5.1192428e-06,
       2.4821245e-05], dtype=float32)
>>> r = [*enumerate(tagger.model.predict([doc])[0][1])]
>>> r.sort(key=lambda x: x[1])
>>> r
[(28, 2.7809198e-08), (24, 4.8646534e-08), (34, 6.24167e-08), (35, 9.545344e-08), (17, 1.3964747e-07), (20, 1.4303426e-07), (4, 1.4711081e-07), (7, 1.7524673e-07), (18, 2.0764594e-07), (0, 2.470609e-07), (23, 3.1479198e-07), (11, 3.377486e-07), (21, 3.7962508e-07), (32, 4.7322575e-07), (25, 6.1310317e-07), (19, 7.046754e-07), (2, 7.8214543e-07), (3, 1.0063847e-06), (13, 1.2011193e-06), (10, 1.2176755e-06), (44, 1.2672864e-06), (12, 1.319992e-06), (31, 1.8219554e-06), (9, 2.4248957e-06), (27, 3.7493783e-06), (47, 5.119243e-06), (43, 5.182008e-06), (14, 9.4455345e-06), (1, 9.588946e-06), (45, 9.745312e-06), (26, 1.0607551e-05), (29, 1.2118652e-05), (6, 1.3229882e-05), (8, 1.8464769e-05), (33, 1.8754436e-05), (36, 1.893749e-05), (15, 2.1991875e-05), (46, 2.4000105e-05), (48, 2.4821245e-05), (5, 8.99952e-05), (41, 9.6441705e-05), (42, 0.0001745601), (22, 0.0012130551), (39, 0.001574138), (37, 0.006391635), (30, 0.009908149), (16, 0.016732251), (38, 0.37999314), (40, 0.5836057)]

你可以看到这里列表末尾的前两项匹配结果(38, 0.37999314), (40, 0.5836057)置信度不高 (~50%),这表明存在一些歧义。
>>> tagger.labels
('$', "''", ',', '-LRB-', '-RRB-', '.', ':', 'ADD', 'AFX', 'CC', 'CD', 'DT', 'EX', 'FW', 'HYPH', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NFP', 'NN', 'NNP', 'NNPS', 'NNS', 'PDT', 'POS', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'SYM', 'TO', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP', 'WP$', 'WRB', 'XX', '``')
>>> tagger.labels[40]
'VBN'
>>> tagger.labels[38]
'VBD'

看起来有一些语言特定的标记,需要进行一些映射才能得到通用的词性标注。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接