Gensim:如何将LDA模型生成的主题保存为可读格式(csv、txt等)?

9
代码的最后一部分:
lda = LdaModel(corpus=corpus,id2word=dictionary, num_topics=2)
print lda

Bash 输出:

INFO : adding document #0 to Dictionary(0 unique tokens)
INFO : built Dictionary(18 unique tokens) from 5 documents (total  20 corpus positions)
INFO : using serial LDA version on this node
INFO : running online LDA training, 2 topics, 1 passes over the supplied corpus of 5 documents, updating model once every 5 documents
WARNING : too few updates, training might not converge; consider increasing the number of passes to improve accuracy
INFO : PROGRESS: iteration 0, at document #5/5
INFO : 2/5 documents converged within 50 iterations
INFO : topic #0: 0.079*cute + 0.076*broccoli + 0.070*adopted + 0.069*yesterday + 0.069*eat + 0.069*sister + 0.068*kitten + 0.068*kittens + 0.067*bananas + 0.067*chinchillas
INFO : topic #1: 0.082*broccoli + 0.079*cute + 0.071*piece + 0.070*munching + 0.069*spinach + 0.068*hamster + 0.068*ate + 0.067*banana + 0.066*breakfast + 0.066*smoothie
INFO : topic diff=0.470477, rho=1.000000
<gensim.models.ldamodel.LdaModel object at 0x10f1f4050>

我想知道是否能将生成的主题保存为可读格式。我尝试过使用.save()方法,但输出的总是一些无法阅读的内容。


你尝试过正则表达式吗?我遇到了同样的问题,注意到每个项目都像一个字符串一样。 - user3314418
4个回答

32

以下是如何为gensim LDA保存模型的方法:

from gensim import corpora, models, similarities

# create corpus and dictionary
corpus = ...
dictionary = ...

# train model, this might takes time
model = models.LdaModel.LdaModel(corpus=corpus,id2word=dictionary, num_topics=200,passes=5, alpha='auto')
# save model to disk (no need to use pickle module)
model.save('lda.model')

打印主题,以下是几种方法:

# later on, load trained model from file
model =  models.LdaModel.load('lda.model')

# print all topics
model.show_topics(topics=200, topn=20)

# print topic 28
model.print_topic(109, topn=20)

# another way
for i in range(0, model.num_topics-1):
    print model.print_topic(i)

# and another way, only prints top words
for t in range(0, model.num_topics-1):
    print 'topic {}: '.format(t) + ', '.join([v[1] for v in model.show_topic(t, 20)])

3
您可以使用 pickle 模块。
import pickle
# your code
pickle.dump(lda,open(filename,'w'))
# you may load it back again
lda_copy = pickle.load(file(filename))

1
请注意,pickle通常会写入一个文本文件,虽然可读,但可能不易理解。 - Nik
啊,我刚看到结果。你知道有没有什么方法可以只从包中绘制主题,这样生成的文本文件会更容易清理吗? - jeremy.ting
抱歉,我不知道有任何这样的方法。 - Nik
pickle 不会起作用,因为它会保存整个模型,而不是主题词... - Renaud
当我保存原始模型对象时,出现以下错误:TypeError: write() argument must be str, not bytes. - miguelmorin

3

你只需要使用lda.show_topics(topics=-1)或任意数量的主题(topics=10,topics=15,topics=1000 ... ...)。通常我只做如下操作:

logfile = open('.../yourfile.txt', 'a')
print>>logfile, lda.show_topics(topics=-1, topn=10)

所有这些参数及其他参数均可在gensim文档中找到。

0

.save() 让你获得模型本身,而不是主题(因此,无法读取输出)。

使用:

with open('topic_file', 'w') as topic_file:
    topics=lda_model.top_topics(corpus)
    topic_file.write('\n'.join('%s %s' %topic for topic in topics))

您将获得一个可读的文件,其中包含所有聚类主题及其相关概率。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接