我有一个包含两列的数据框。这两列分别是“Word”和“Tag”。数据框如下所示:
Word Tag
0 DNA O
1 , O
2 adalah O
3 ) X
4 , Y
5 ikatan P
6 10 O
7 , O
8 4 Q
9 pasangan Q
10 abad A
11 20 B
12 , C
13 bersamaan D
我希望合并一些行,这些行包含带逗号
,
的数字 数字+,+数字
到一行中。输出应该如下所示: Word Tag
0 DNA O
1 , O
2 adalah O
3 ) X
4 , Y
5 ikatan P
6 10,4 O
7 pasangan Q
8 abad A
9 20 B
10 , C
11 bersamaan D
有什么想法吗?提前感谢。
我已经尝试过:
coma = df['Word'].shift().ne(',').mul(df['Word'].ne(',')).cumsum()
new_df = df.groupby(coma, as_index=False).agg({'Word' : ''.join, 'Tag' : 'first'})
print(new_df)
但它也会组合单词和逗号,而我只想组合数字和逗号。