在 Pandas 数据框中创建两列的邻接矩阵

23

我有一个如下格式的数据框:

index  Name_A  Name_B
  0    Adam    Ben
  1    Chris   David
  2    Adam    Chris
  3    Ben     Chris

我希望获得Name_AName_B的邻接矩阵,即:

      Adam Ben Chris David
Adam   0    1    1     0
Ben    0    0    1     0
Chris  0    0    0     1
David  0    0    0     0
什么是处理此问题的最pythonic /可扩展的方式?
编辑:此外,我知道如果数据集中有行Adam,Ben,则在某些其他时间点上,数据集中还将有Ben,Adam。
1个回答

40
你可以使用crosstab,然后通过联合列和索引值来重新索引
df = pd.crosstab(df.Name_A, df.Name_B)
print (df)
Name_B  Ben  Chris  David
Name_A                   
Adam      1      1      0
Ben       0      1      0
Chris     0      0      1

df = pd.crosstab(df.Name_A, df.Name_B)
idx = df.columns.union(df.index)
df = df.reindex(index = idx, columns=idx, fill_value=0)
print (df)
       Adam  Ben  Chris  David
Adam      0    1      1      0
Ben       0    0      1      0
Chris     0    0      0      1
David     0    0      0      0

1
嗨@jezrael,我想知道为什么你的答案中第三行第二列有一个0而不是1。即矩阵应该是对称的。你的工作示例如何实现这一点?我正在考虑取上三角形,转置并替换,但这不太优雅。 - Sos
我相信这是因为它使用了有序匹配,而不是无序匹配。 - jxramos

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接