我刚开始学习编码,并尝试理解NetworkX的工作原理。我有一个带有文档和主题列的Pandas DataFrame。 topics
列指示每个文档(行)中是否存在特定主题。
df = pd.DataFrame({'DOC': ['Doc_A', 'Doc_B', 'Doc_C', 'Doc_D', 'Doc_E'], 'topic_A': [0,0,1,0,0], 'topic_B': [1,0,0,1,0], 'topic_C': [0,1,1,1,0]})
DOC topic_A topic_B topic_C
0 Doc_A 0 1 0
1 Doc_B 0 0 1
2 Doc_C 1 0 1
3 Doc_D 0 1 1
4 Doc_E 0 0 0
我希望做的是创建这样的网络:
1) 文档是节点,主题是边(无权重),同一节点可能有多个边。
2) 文档是节点,主题是边,但不再是多个边,而是根据它们共享的主题数量赋予不同的权重。
如何实现这个想法?我是否想得正确呢?