我有以下表格。一些值是NaN。假设列之间高度相关。以
row 0
和row 5
为例,我说col2
中的值将是4.0
。对于row 1
和row 4
也是同样的情况。但是在row 6
的情况下,没有完全匹配的样本,因此我应该选择最相似的行-在这种情况下,是row 0
并将NaN更改为3.0
。我该怎么做?有没有任何pandas函数可以实现这个功能?example = pd.DataFrame({"col1": [3, 2, 8, 4, 2, 3, np.nan],
"col2": [4, 3, 6, np.nan, 3, np.nan, 5],
"col3": [7, 8, 9, np.nan, np.nan, 7, 7],
"col4": [7, 8, 9, np.nan, np.nan, 7, 6]})
输出:
col1 col2 col3 col4
0 3.0 4.0 7.0 7.0
1 2.0 3.0 8.0 8.0
2 8.0 6.0 9.0 9.0
3 4.0 NaN NaN NaN
4 2.0 3.0 NaN NaN
5 3.0 NaN 7.0 7.0
6 NaN 5.0 7.0 6.0
NaN
值。或者有时,您可能希望用特征的中位数或平均值替换它们。如果您使用高级算法,它们可能会自行处理缺失值。 - jukeboxNaN
值。 - jukebox