大家好。我正在使用Baum-Welch算法来训练一个词性标注器,它完全是无监督的方式。 现在遇到了一个问题: 当我得到标签结果时,我只得到一系列数字。 我无法确定哪个标签代表VV、NN、DT。 我该如何解决这个问题?
一般来说,这是不可能的。Baum-Welch会找到具有相似分布的单词用法类别,但没有特定的理由认为这些类别会以任何特定语言学理论所假定的类别直接映射。因此,无监督的POS标注器主要适用于您关心单词或短语的等价类别而不关心分配的具体标签的应用程序。然而,如果您真的需要人类可读的标签(例如,在开发过程中,评估您获得的结果是否合理),我建议您手动标记几十个句子。然后,您可以将基于B-W的标记应用于该已标记的小型语料库,以诱导类别编号和POS标签之间的映射。