我正在使用BeautifulSoup从HTML中收集一些元数据和文本,并构建语料库。如果我可以在Python中调用Mallet并从Python字符串中建模主题,而不是从目录中的文本文件,那将非常有帮助。这样我就可以在每个文件中放置Mallet找到的n个关键词。
当我运行以下代码时,会收到“Mallet已被识别”的消息:
当我运行以下代码时,会收到“Mallet已被识别”的消息:
from nltk.classify import mallet
from subprocess import call
mallet.config_mallet("malletdir/mallet-2.0.7/bin")
但我在接下来的步骤中没有任何进展,而且甚至不确定Mallet是否接受除保存文件以外的任何东西。
我找不到任何我能真正理解的文档。有人看到易于理解的文档了吗?(NLTK书籍并没有涉及Mallet)。我也很乐意了解在Python中进行主题建模的其他方法,我可以在没有深入了解Python的情况下将其操作化。
对不起,这是我第一次尝试。