Baum-Welch算法用于词性标注器

3

大家好。我正在使用Baum-Welch算法来训练一个词性标注器,它完全是无监督的方式。 现在遇到了一个问题: 当我得到标签结果时,我只得到一系列数字。 我无法确定哪个标签代表VV、NN、DT。 我该如何解决这个问题?


1
你正在标记哪种编程语言? - dmcer
1
你应该为每个单词获取概率,然后选择具有最高概率的单词。 - ealdent
但我不知道哪个标签代表哪个词性标注。我只得到1 2 3 5 2 3. - David
1个回答

5
一般来说,这是不可能的。Baum-Welch会找到具有相似分布的单词用法类别,但没有特定的理由认为这些类别会以任何特定语言学理论所假定的类别直接映射。因此,无监督的POS标注器主要适用于您关心单词或短语的等价类别而不关心分配的具体标签的应用程序。
然而,如果您真的需要人类可读的标签(例如,在开发过程中,评估您获得的结果是否合理),我建议您手动标记几十个句子。然后,您可以将基于B-W的标记应用于该已标记的小型语料库,以诱导类别编号和POS标签之间的映射。

在我看来,无监督的方式似乎不是创建有用的词性标注器的好选择。谢谢您的解释! - David

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接