我正在尝试从给定的文本构建一个n-gram马尔可夫模型,然后访问其转移表,以便我可以计算每个长度为n(克)的单词序列的条件熵。
例如,在一个二元模型中,在读入一段文本语料库并构建一个内部转移表后,“dogs chase”状态可能会以0.9的概率转换为“chase cats”状态,并以0.1的概率转换为“chase people”状态。如果我知道可能的转换,我就可以计算出条件熵。
有没有适用于此的Python库?我已经检查了NLTK、SRILM和其他库,但没有找到太多相关内容。
有没有适用于此的Python库?我已经检查了NLTK、SRILM和其他库,但没有找到太多相关内容。