合并和删除重复项

3
我有两个大型数据集想要合并,它们有一个共同的列名叫"gene"。
在df1中,所有条目都是唯一的。
in [85]: df1
Out[85]: 
         gene
0       Cdk12
1     Cdk2ap1
2        Cdk7
3        Cdk8
4        Cdx2
5       Cenpa
6       Cenpa
7       Cenpa
8      Cenpc1
9       Cenpe
10      Cenpj

df2
Out[86]: 
           gene  year                           DOI
0         Cdk12  2001              10.1038/35055500
1         Cdk12  2002           10.1038/nature01266
2         Cdk12  2002        10.1074/jbc.M106813200
3         Cdk12  2003       10.1073/pnas.1633296100
4         Cdk12  2003       10.1073/pnas.2336103100
5         Cdk12  2005            10.1093/nar/gni045
6         Cdk12  2005       10.1126/science.1112014
7         Cdk12  2008         10.1101/gr.078352.108
8         Cdk12  2011  10.1371/journal.pbio.1000582
9         Cdk12  2012       10.1074/jbc.M111.321760
10        Cdk12  2016          10.1038/cdd.2015.157
11        Cdk12  2017         10.1093/cercor/bhw081
12      Cdk2ap1  2001        10.1006/geno.2001.6474
13      Cdk2ap1  2001              10.1038/35055500
14      Cdk2ap1  2002           10.1038/nature01266

我希望保留df1的顺序,因为我将要将其与另一个数据集进行连接。

Dataframe 2每个“gene”有多个条目,我只想保留每个基因的一个条目。

“year”中最近的值将决定保留哪个“gene”条目。

我的尝试:读取文件到pandas中,然后命名列。

df1 = pd.read_csv('T1inorderforMerge.csv', header = None)
df2 = pd.read_csv('T2inorderforMerge.csv', header = None)
df1.columns = ["gene"]
df2.columns = ["gene","year","DOI"]

我已尝试下面代码的所有变化,即更改df的方式和顺序。

df3 = pd.merge(df1, df2, on ="gene", how="left")

我尝试了垂直和水平堆叠,虽然对一些人来说很明显,但并没有起作用。我还尝试了许多其他混乱的代码,但真的想看看是否可以使用pandas来实现这个目标。

2个回答

3

我认为一个可能的解决方案是创建帮助列,计算gene的值,然后将一对一对地合并 - 将df1中的第一个Cdk12df2中的第一个Cdk12合并,第二个Cdk12与第二个Cdk12合并,依此类推。唯一的值是经典方式进行合并(因为a始终为0):

df1['a'] = df1.groupby('gene').cumcount()
df2['a'] = df2.groupby('gene').cumcount()

print (df1)
       gene  a
0     Cdk12  0
1   Cdk2ap1  0
2      Cdk7  0
3      Cdk8  0
4      Cdx2  0
5     Cenpa  0
6     Cenpa  1
7     Cenpa  2
8    Cenpc1  0
9     Cenpe  0
10    Cenpj  0

print (df2)
       gene  year                           DOI   a
0     Cdk12  2001              10.1038/35055500   0
1     Cdk12  2002           10.1038/nature01266   1
2     Cdk12  2002        10.1074/jbc.M106813200   2
3     Cdk12  2003       10.1073/pnas.1633296100   3
4     Cdk12  2003       10.1073/pnas.2336103100   4
5     Cdk12  2005            10.1093/nar/gni045   5
6     Cdk12  2005       10.1126/science.1112014   6
7     Cdk12  2008         10.1101/gr.078352.108   7
8     Cdk12  2011  10.1371/journal.pbio.1000582   8
9     Cdk12  2012       10.1074/jbc.M111.321760   9
10    Cdk12  2016          10.1038/cdd.2015.157  10
11    Cdk12  2017         10.1093/cercor/bhw081  11
12  Cdk2ap1  2001        10.1006/geno.2001.6474   0
13  Cdk2ap1  2001              10.1038/35055500   1
14  Cdk2ap1  2002           10.1038/nature01266   2

df3 = pd.merge(df1, df2, on =["a","gene"], how="left").drop('a', axis=1)
print (df3)
       gene    year                     DOI
0     Cdk12  2001.0        10.1038/35055500
1   Cdk2ap1  2001.0  10.1006/geno.2001.6474
2      Cdk7     NaN                     NaN
3      Cdk8     NaN                     NaN
4      Cdx2     NaN                     NaN
5     Cenpa     NaN                     NaN
6     Cenpa     NaN                     NaN
7     Cenpa     NaN                     NaN
8    Cenpc1     NaN                     NaN
9     Cenpe     NaN                     NaN
10    Cenpj     NaN                     NaN

还可以获得所有未匹配对gene的行的NaN


但是,如果需要在df1 ['gene']中仅处理唯一值,则需要先在两个数据帧中使用drop_duplicates

df1 = df1.drop_duplicates('gene')
df2 = df2.drop_duplicates('gene')

print (df1)
      gene
0     Cdk12
1   Cdk2ap1
2      Cdk7
3      Cdk8
4      Cdx2
5     Cenpa
8    Cenpc1
9     Cenpe
10    Cenpj

print (df2)
       gene  year                     DOI
0     Cdk12  2001        10.1038/35055500
12  Cdk2ap1  2001  10.1006/geno.2001.6474

df3 = pd.merge(df1, df2, on ="gene", how="left")
print (df3)
      gene    year                     DOI
0    Cdk12  2001.0        10.1038/35055500
1  Cdk2ap1  2001.0  10.1006/geno.2001.6474
2     Cdk7     NaN                     NaN
3     Cdk8     NaN                     NaN
4     Cdx2     NaN                     NaN
5    Cenpa     NaN                     NaN
6   Cenpc1     NaN                     NaN
7    Cenpe     NaN                     NaN
8    Cenpj     NaN                     NaN

1
KeyError: 'A',所以我把所有的“A”都改成了“a”。这段代码确实给出了一个“gene”条目,但它是第一个,例如Cdk12旁边的年份是2001,而不是2017。虽然这是朝着正确方向迈出的一步,但我会继续努力的。 - Nosey
df1中的所有基因都是唯一的。如果我能够删除df2中的重复项,但保留最近年份的条目,那就可以了。我会继续努力工作。 - Nosey
我添加了代码来删除df1中的重复项,因为第5、6、7行中的Cenpa是重复的。 - jezrael
1
谢谢大家,我还没有完成这个任务,但是我可以看到如何使用这些辅助列来完成它。太棒了。 - Nosey
@DavidFlores - 我有一个小建议给你 - 尝试创建一个小的数据样本 - 每个df中只有10行并进行测试。然后将解决方案应用于大型数据框。 - jezrael

1
不确定 type(df1) 是什么,但是:
In [1]: df1 = ['a', 'f', 'g']

In [2]: df2 = [['a', 7, True], ['g',8, False]]

In [3]: [[inner_item for inner_item in df2 if inner_item[0] == outer_item][0] if len([inner_item for inner_item in df2 if inner_item[0] == outer_item])>0 else [outer_item,None,None] for outer_item in df1]

Out[3]: [['a', 7, True], ['f', None, None], ['g', 8, False]]

print (type(df1)) is <class 'pandas.core.frame.DataFrame'> - jezrael

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接