我有一个包含以下列的大型数据框:
import pandas as pd
x = pd.read_csv('age_year.csv')
x.head()
ID Year age
22445 1991
29925 1991
76165 1991
223725 1991 16.0
280165 1991
Year
列的取值范围为1991
到2017
。大多数ID
在每个Year
都有一个age
值,例如:
x.loc[x['ID'] == 280165].to_clipboard(index = False)
ID Year age
280165 1991
280165 1992
280165 1993
280165 1994
280165 1995 16.0
280165 1996 17.0
280165 1997 18.0
280165 1998 19.0
280165 1999 20.0
280165 2000 21.0
280165 2001
280165 2002
280165 2003
280165 2004 25.0
280165 2005 26.0
280165 2006 27.0
280165 2007
280165 2008
280165 2010 31.0
280165 2011 32.0
280165 2012 33.0
280165 2013 34.0
280165 2014 35.0
280165 2015 36.0
280165 2016 37.0
280165 2017 38.0
我想为每个唯一的
ID
填充age
列中缺失的值,基于它们已有的值。例如,对于上面的ID
280165,我们知道他们在2008
年是29
岁,鉴于他们在2010年是31
岁(2007年28岁、2003年24岁等)。
如何为许多不同的ID
每年填写这些缺失的age
值?我不确定如何以统一的方式处理整个DataFrame中的数据。在此问题中使用的数据可以在此处找到。