基于两列的值选择pandas数据框行

7

我想根据两个列的值选择一些特定的行。例如:

d = {'user' : [1., 2., 3., 4] ,'item' : [5., 6., 7., 8.],'f1' : [9., 16., 17., 18.], 'f2':[4,5,6,5], 'f3':[4,5,5,8]}
df = pd.DataFrame(d)
print df

Out:
   f1  f2  f3  item  user
0   9   4   4     5     1
1  16   5   5     6     2
2  17   6   5     7     3
3  18   5   8     8     4

我希望根据'user'和'item'的值来选择行。给定一个存储[user,item]值对的2D numpy数组:

samples = np.array([[1,5],[3,7],[3,7],[2,6]]) 
Out: 
array([[1, 5],
       [3, 7],
       [3, 7],
       [2, 6]])

那么预期的输出是:
    Out:
   f1  f2  f3  item  user
0   9   4   4     5     1
2  17   6   5     7     3
2  17   6   5     7     3
1  16   5   5     6     2

最终目标是获取一个2D的numpy数组,存储除了item和user以外的所有列的值,即:

Out: 
array([[9, 4, 4],
       [17, 6, 5],
       [17, 6, 5],
       [16, 5, 5]])

我们可以看到,这是f1、f2和f3列的值。
我该如何做到这一点?
2个回答

9
如果您将 samples 设为一个具有列名为 useritem 的 DataFrame,在使用inner join时,您可以获得所需的值。默认情况下,pd.merge 在所有 samplesdf 共同拥有的列上进行合并 - 在这种情况下即为 useritem。因此,
result = pd.merge(samples, df, how='inner')

产量
   user  item  f1  f2  f3
0     1     5   9   4   4
1     3     7  17   6   5
2     3     7  17   6   5
3     2     6  16   5   5

import numpy as np
import pandas as pd

d = {'user' : [1., 2., 3., 4] ,'item' : [5., 6., 7., 8.],'f1' : [9., 16., 17., 18.], 'f2':[4,5,6,5], 'f3':[4,5,5,8]}
df = pd.DataFrame(d)
samples = np.array([[1,5],[3,7],[3,7],[2,6]]) 
samples = pd.DataFrame(samples, columns=['user', 'item'])

result = pd.merge(samples, df, how='inner')
result = result[['f1', 'f2', 'f3']]
result = result.values
print(result)

产出。
[[  9.   4.   4.]
 [ 17.   6.   5.]
 [ 17.   6.   5.]
 [ 16.   5.   5.]]

哇!@unutbu,太棒了!谢谢!这正是我想要的,因为我不想使用for循环。 - Excalibur

1
一种有点倾向于 numpy 数组的方法 -
import numpy as np

# Convert item and user columns to a 2-column array
item_user_arr = np.asarray(df[["item","user"]]).astype(int)

# Mask of matches across rows of samples and item_user_arr, with columns flipped
mask = (samples[:,None,1]==item_user_arr[:,0]) & (samples[:,None,0]==item_user_arr[:,1])

# Get indices of matches
_,C = np.where(mask)

# Use those indices to select data from f1,f2,f3 columns for final output array
out = np.asarray(df[["f1","f2","f3"]])[C,:]

给定输入的输出 -

In [536]: out
Out[536]: 
array([[  9.,   4.,   4.],
       [ 17.,   6.,   5.],
       [ 17.,   6.,   5.],
       [ 16.,   5.,   5.]])

谢谢@Divakar,这也是解决这个问题的一个很好的方法! - Excalibur

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接