以下是我的整个数据集的摘要,只是为了说明我的问题。
该数据框显示了每个id的工作申请情况,我想知道哪种部门组合更有可能被个人申请?
这个答案表明,管理和销售是更有可能收到相同id的申请的部门(这就是我在寻找的答案)。但我也对其他组合感兴趣,我认为热力图将非常有信息量地说明这些数据。
来自同一部门的部门组合是无关紧要的(也许在答案矩阵的对角线上应该是0,不管值是多少,我不会进行分析)。
df
id education area_job_application
1 Collage Construction
1 Collage Sales
1 Collage Administration
2 University Finance
2 University Sales
3 Collage Finance
3 Collage Sales
4 University Administration
4 University Sales
4 University Data analyst
5 University Administration
5 University Sales
答案
Construction Sales Administration Finance Data analyst
Contruction 1 1 1 0 0
Sales 1 5 3 1 1
Administration 1 3 3 0 1
Finance 0 2 0 2 0
Data analyst 0 1 1 0 1
这个答案表明,管理和销售是更有可能收到相同id的申请的部门(这就是我在寻找的答案)。但我也对其他组合感兴趣,我认为热力图将非常有信息量地说明这些数据。
来自同一部门的部门组合是无关紧要的(也许在答案矩阵的对角线上应该是0,不管值是多少,我不会进行分析)。
np.fill_diagonal(df.values, 0)
。 - jezrael