使用 Pandas 创建两列层次结构

4

我正在处理的数据如下:

Name RefSecondary     RefMain
test  2               3   
bet   3               4   
get   1               2   
set   null            1   
net   3               5

我已经完成了一个非常简单的查询,它查找数据框中值的存在并构建层次结构。

sys_role = 'sample.xlsx'
df = pd.read_excel(sys_role,na_filter = False).apply(lambda x: x.astype(str).str.strip())
for i in range(count):
    for j in range(count):
        if df.iloc[i]['RefMain'] == df.iloc[j]['RefSecondary']:
            df.iloc[j, df.columns.get_loc('Name')] = "/".join([df.iloc[i]['Name'],df.iloc[j]['Name']])
    j = j+1
i = i+1

我得到的结果如下:
   Result          RefMain
0  get/test           3
1  test/bet           4
2  set/get            2
3  set                1
4  test/net           5

这个速度真的很慢,而且逻辑也不完美。有没有一种方法可以更快地完成?

逻辑需要如下:

 1)Take a value from column RefMain,and find its correspoding RefSecondary value.  
 2)Look up the RefSecondary value  in RefMain, 
 3)If found Back to Step 1 and repeat.
 4)This continues recursively till no value/null is found in RefSecondary column.

生成的数据框应该长成下面这个样子:

   Result            RefMain
0  set/get/test          3
1  set/get/test/bet      4
2  set/get               2
3  set                   1
4  set/get/test/net      5

1
问题丢失了? - PV8
已更新以澄清。 - misguided
你的逻辑还不够清晰,能否尝试解释一下如何得到RefMain=4的第二行? - Dev Khadka
RefMain 4,对应的RefSecondary值为3。现在可以在RefMain列中找到3,并且它的对应RefSecondary是2。现在可以在RefMain列中找到2,并且它的RefSecondary是1。现在可以在RefMain列中找到1,但它的RefSecondary为空或没有匹配项。由于没有匹配项,因此流程停止并将所有值相加。 - misguided
4个回答

4
这听起来像是一个图论问题。你可以尝试使用以下代码:networkx
df = df.fillna(-1)

# create a graph
G = nx.DiGraph()

# add reference as edges
G.add_edges_from(zip(df['RefMain'],df['RefSecondary'] ))

# rename the nodes accordingly
G = nx.relabel_nodes(G, mapping=df.set_index('RefMain')['Name'].to_dict())


# merge the path list to the dataframe
df = df.merge(pd.DataFrame(nx.shortest_path(G)).T['null'], 
              left_on='Name', 
              right_index=True)

# new column:
df['Path'] = df['null'].apply(lambda x: '/'.join(x[-2::-1]) )

输出:

   Name RefSecondary RefMain                         null              Path
0  test            2       3       [test, get, set, null]      set/get/test
1   bet            3       4  [bet, test, get, set, null]  set/get/test/bet
2   get            1       2             [get, set, null]           set/get
3   set         null       1                  [set, null]               set
4   net            3       5  [net, test, get, set, null]  set/get/test/net

df = df.merge(pd.DataFrame(nx.shortest_path(G)).T[-1] this lie shows KeyError: -1 - misguided
我已经完成了。为了清晰起见,我也写了一下我如何加载数据框的代码,以防有些相关性。 - misguided
您的原始数据在第4行是nan而不是nullnull是字符串'null'吗?此外,这些数字是string还是int类型? - Quang Hoang
数字是 int,是的,空值是字符串 null - misguided
1
在这种情况下,用['null']代替[-1]。请参考编辑。 - Quang Hoang
显示剩余3条评论

2
以下代码查找一个引用(在此情况下为1),直到找不到任何行。它输出:
def lookup(df, ref):
    arr_result=[]
    result = []
    row = df[df.RefMain==ref]
    while len(row)>0:
        arr_result.append(row.Name.iloc[0])
        result.append(("/".join(arr_result), row.RefMain.iloc[0]))
        row = df[df.RefSecondary == row.RefMain.iloc[0] ]

    return pd.DataFrame(result, columns=["Result", "RefMain"])

lookup(df,1)

输出

Result  RefMain
0   set 1
1   set/get 2
2   set/get/test    3
3   set/get/test/bet    4

在上述问题中,如何获取“set/get/test/net 5”行,我有遗漏还是这是一个错误?

我已经更新了问题,并附上了我目前所做的内容。 - misguided

2
您可以将列RefMain设置为索引,并使用方法reindex()访问字符串:
# Convert 'RefSecondary' to numeric and set 'RefMain' as index
df['RefSecondary'] = pd.to_numeric(df.RefSecondary, errors='coerce')
df.set_index('RefMain', drop=False, inplace=True)

lst = [df['Name'].values]
new_df = df.copy()

# Iterate until all values in 'Name' are NaN 
while new_df['Name'].notna().any():
    new_df = df.reindex(new_df['RefSecondary'])
    lst.append(new_df['Name'].values)

您得到以下数组列表lst:
[array(['test', 'bet', 'get', 'set', 'net'], dtype=object),
 array(['get', 'test', 'set', nan, 'test'], dtype=object),
 array(['set', 'get', nan, nan, 'get'], dtype=object),
 array([nan, 'set', nan, nan, 'set'], dtype=object),
 array([nan, nan, nan, nan, nan], dtype=object)]

现在您可以将字符串连接起来并创建一个新的df。
result = ['/'.join(filter(np.nan.__eq__, i)) for i in zip(*lst[::-1])]
result = pd.DataFrame({'Result': result, 'RefMain': df['RefMain'].values})

今日免费次数已满, 请开通会员/明日再来
             Result  RefMain
0      set/get/test        3
1  set/get/test/bet        4
2           set/get        2
3               set        1
4  set/get/test/net        5

1
这段代码处理合并操作。它有点复杂,但应该运行得很快,因为(可能是因为)没有行迭代。
简而言之,它会一直合并,直到所有新的RefSecondary值为空。
我想可以进一步优化掩盖merge操作。
df_ref = df.copy()

df.rename(columns={'Name':'Result'},inplace=True)

while not np.all(pd.isnull(df['RefSecondary'])):
    df = df.merge(df_ref,how='left',
                  left_on='RefSecondary',right_on='RefMain',
                  suffixes=['_old',''])
    mask_=pd.notnull(df['RefMain'])
    df.loc[mask_,'Result'] = df.loc[mask_,'Result']+'/'+df.loc[mask_,'Name']
    df.drop(['RefSecondary_old','RefMain_old','Name'],axis='columns',inplace=True)


df = df[['Result']].join(df_ref['RefMain'])

源数据:

df = pd.DataFrame(data=[['test',2,3],
                    ['bet',3,4],
                    ['get',1,2],
                    ['set','null',1],
                    ['net',3,5]], 
              columns=['Name','RefSecondary','RefMain'])

顺便提一下,这段代码假设原始数据是一致的。例如,如果链接中存在循环,它将被困在无限循环中。

df.loc[mask_,'Result'] = df.loc[mask_,'Result']+'/'+df.loc[mask_,'index'] this line shows KeyError: 'Result' - misguided
以上代码中没有被重命名的“index”列。此外,“Result”是我在输出数据框中创建的一列。 - misguided
1
我根据您的评论调整了我的回复。 - HerrIvan

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接