Pandas数据框中某一列的数据丢失。

3

我正在创建一个名为“salesdata”的数据框,其中有一个名为“Outlet_Size”的列,该列包含一些缺失的数据。以下是我的代码:

#defining a dictionary
cat_dict ={}
#getting all the values of the column
outlet_size_values = salesdata.Outlet_Size.values
unique_outlet_size_val = list(set(outlet_size_values))  
print(unique_outlet_size_val)

我得到的输出是 [nan,'High','Medium','Small'],我不希望这个丢失的数据(nan)成为列表的一部分,也不想为此创建一个新列表。

3个回答

3

使用基本的pandas函数:dropna来删除nan值,然后使用unique获得集合等效结果:

salesdata.Outlet_Size.dropna().unique()

2

pandas有一个函数unique可以获得唯一值。您可以使用它并过滤掉NaN,例如:

salesdata.loc[~salesdata.Outlet_Size.isnull(), 'Outlet_Size'].unique()

0
你可以使用 numpy.unique
import pandas as pd
import numpy as np

np.unique(salesdata.Outlet_Size.dropna().values)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接