Spacy中德语词形还原的惊人结果

4

我希望在Spacy中使用德语词形还原器,但是我对结果感到非常惊讶:

import spacy

nlp = spacy.load("de_dep_news_trf")
[token.lemma_ for token in nlp('ich du er sie mein dein sein ihr unser')]

提供

['ich', 'du', 'ich', 'ich', 'meinen', 'mein', 'mein', 'mein', 'sich']

我不确定我能使用那个:

vielen dank für deinen sehr guten tweet

变成

viel danken für mein sehr gut tweet

这显然改变了句子的意思。

这是预期的吗?我是否遗漏了可以使该词形还原器不那么“过度”的调整/配置?

1个回答

3

当前(v3.1)默认的德语词形还原器并不是很好。它只是一个非常简单的查找词形还原器,其查找表中有一些可疑的词条,但考虑到德语预训练管道的许可限制,没有其他好的选择。(我们正在进行一些内部工作,开发一种基于统计的词形还原器,但我不确定它何时会发布。)

如果词形还原对于您的任务很重要,最好建议使用其他词形还原器。根据您的任务/规模/速度/许可要求,您可以考虑使用来自spacy-stanza或第三方库(如spacy-iwnlp)的德语模型(目前仅适用于spacy v2,但更新为v3可能并不难)。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接