从一个DataFrame插入值到另一个DataFrame中。

4

好的,我的实际问题比这个更大,但我有一个简单的可行示例。

>>> import pandas as pd
>>> import numpy as np
>>> a = pd.DataFrame(np.array([[2, 1990], [4,1991], [5,1992]]), \
...                  index=[1,2,3], columns=['var', 'yr'])
>>> a
   var    yr
1    2  1990
2    4  1991
3    5  1992
>>> b = pd.DataFrame(index=a.index, columns=['new_var'])
>>> b
  new_var
1     NaN
2     NaN
3     NaN
>>> b[a.yr<1992].loc[:, 'new_var'] = a[a.yr<1992].loc[:, 'var']
>>> b
  new_var
1     NaN
2     NaN
3     NaN

我希望得到以下输出:
>>> b
  new_var
1       2
2       4
3     NaN
3个回答

3
使用过滤器时,您正在创建一个切片的副本,因此它不会被分配。请改用以下方法:b.loc[a.yr<1992, 'new_var'] = a['var']。

1
这是一个很好的答案!然而,在 a 上进行切片是不必要的。这个就足够了 b.loc[a.yr<1992, 'new_var'] = a['var'] pandas 会为您处理对齐。我给你点赞 +1。 - piRSquared
很好。是的,Pandas似乎非常擅长保持相对简洁。 - cadolphs

1

你也可以使用assign + query增加直观性。

b.assign(new_var=a.query('yr < 1992')['var'])

   new_var
1      2.0
2      4.0
3      NaN

这将返回您需要的dataframe。如果希望使其持久化,您需要将它重新赋值给b

这是一个相当不寻常的使用案例,结合了assignquery;-) - MaxU - stand with Ukraine
1
@MaxU 我总是试图推动边界。 - piRSquared

0
又一个“有创意”的解决方案:
In [181]: b['new_var'] = np.where(a.yr < 1992, a['var'], b['new_var'])

In [182]: b
Out[182]:
  new_var
1       2
2       4
3     NaN

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接