我有一个数据集,正在尝试使用berTopic建模将其转换为主题,但问题是,我无法获取主题的全部文档。 berTopic每个主题只返回3个文档。
topic_model = BERTopic(verbose=True, embedding_model=embedding_model,
nr_topics = 'auto',
n_gram_range = (3,3),
top_n_words = 10,
calculate_probabilities=True,
seed_topic_list = topic_list,
)
topics, probs = topic_model.fit_transform(docs_test)
representative_doc = topic_model.get_representative_docs(topic#1)
representative_doc
这个主题包含超过300篇文档,但使用.get_representative_docs只有3篇被bertopic显示出来。