我有两个数组(A和B),每个数组中大约有50,000个值。每个值代表一个ID。我想创建一个带有三列的pandas数据框,col1:来自数组A的值,col2:来自数组B的值,col3:一个字符串,标签为“unique”或“duplicate”。在每个数组中,ID是唯一的。
这两个数组的长度不同。因此,我无法像下面这样开始:
我当时打算创建一个不同的pandas数据框,也有三列。一列是ID,另一列是ID来自哪个数组(a或b)。然后按ID分组并计算出现次数。如果>=2,则表明有重复。
但我无法弄清楚如何在同一列中将numpy数组连接在一起(类似于R中的rbind),并同时创建基于值来自哪个数组的其他列。
很可能有比我上面提出的更好的解决方案。有什么想法吗?
这两个数组的长度不同。因此,我无法像下面这样开始:
a = np.array([1, 2, 3, 4, 5])
a = np.array([5, 6, 7, 8, 9, 10])
pd.DataFrame({'a':a, 'a':b})
我当时打算创建一个不同的pandas数据框,也有三列。一列是ID,另一列是ID来自哪个数组(a或b)。然后按ID分组并计算出现次数。如果>=2,则表明有重复。
但我无法弄清楚如何在同一列中将numpy数组连接在一起(类似于R中的rbind),并同时创建基于值来自哪个数组的其他列。
很可能有比我上面提出的更好的解决方案。有什么想法吗?