Gensim LDA主题分配

12

我希望使用LDA算法将每个文档分配给一个主题。但是,从LDA中获得的是主题分布。如下面的最后一行所示,我将其分配给最可能的主题。

我的问题是:为了获取这些主题,我需要第二次运行lda[corpus]。是否有其他内置的gensim函数可以直接给出这些主题分配向量?尤其是由于LDA算法已经通过文档,它可能已经保存了这些主题分配向量?

    # Get the Dictionary and BoW of the corpus after some stemming/ cleansing
    texts = [[stem(word) for word in document.split() if word not in STOPWORDS] for document in cleanDF.text.values]
    dictionary = corpora.Dictionary(texts)
    dictionary.filter_extremes(no_below=5, no_above=0.9)
    corpus = [dictionary.doc2bow(text) for text in texts]

    # The actual LDA component
    lda = models.LdaMulticore(corpus=corpus, id2word=dictionary, num_topics=30, chunksize=10000, passes=10,workers=4) 

    # Assign each document to most prevalent topic
    lda_topic_assignment = [max(p,key=lambda item: item[1]) for p in lda[corpus]]
2个回答

4

没有其他内置的Gensim函数可以直接提供主题分配向量。

您的问题是有效的,LDA算法已经通过文档,但LDA的实现是通过以块为基础更新模型(基于chunksize参数的值),因此它不会将整个语料库保存在内存中。

因此,您必须使用lda[corpus]或使用方法lda.get_document_topics()


1
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]


test =LDA[corpus[0]]
print(test)
sorted(test, reverse=True, key=lambda x: x[1])

Topics = ['Topic_'+str(sorted(LDA[i], reverse=True, key=lambda x: x[1])[0][0]).zfill(3) for i in corpus]

5
请提供一些背景信息以解释为什么您的解决方案是正确的。这将有助于问题提出者理解它。 - Kasia Gogolek

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接