用Python实现LDA主题模型 - 输入文件

Question

用Python实现LDA主题模型 - 输入文件

3

我正在Python中运行lda库，并运行此示例。有人知道X、vocab和titles的格式吗？我找不到文档。

import numpy as np
import lda
X = lda.datasets.load_reuters()
vocab = lda.datasets.load_reuters_vocab()
titles = lda.datasets.load_reuters_titles()

- user1011332

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- user2707389 · Accepted Answer

X是一个矩阵，其中行是标题，列是词汇。它是标题文本的词袋表示。

X
Out[8]: 
array([[1, 0, 1, ..., 0, 0, 0],
       [7, 0, 2, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ..., 
       [1, 0, 1, ..., 0, 0, 0],
       [1, 0, 1, ..., 0, 0, 0],
       [1, 0, 1, ..., 0, 0, 0]], dtype=int32)

在上述矩阵中，每一行都是单个标题的词袋表示。每一列代表一个特定的单词示例。

vocab[:5]
Out[5]: ('church', 'pope', 'years', 'people', 'mother')

因此，X矩阵中的每一行i和列j都给出了第i个标题中特定单词的频率。

titles[:1]
Out[11]: ('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',)

题目 U: Prince Charles… 中提到了 church 一次，pope 0 次，years 一次等等。

In [13]: type(titles)
Out[13]: tuple

In [14]: type(vocab)
Out[14]: tuple

In [15]: type(X)
Out[15]: numpy.ndarray