使用Pandas按列将CSV文件拆分为多个CSV文件(或数据帧)

7
我对一个问题感到非常困惑,希望能得到一些帮助或提示。
问题是:我有一个包含可能具有多个值的列的 CSV 文件,例如:
Fruit;Color;The_evil_column
Apple;Red;something1
Apple;Green;something1
Orange;Orange;something1
Orange;Green;something2
Apple;Red;something2
Apple;Red;something3

我已经将数据加载到数据框中,现在需要根据“The_evil_column”列的值将该数据框拆分为多个数据框:
df1
Fruit;Color;The_evil_column
Apple;Red;something1
Apple;Green;something1
Orange;Orange;something1

df2
Fruit;Color;The_evil_column
Orange;Green;something2
Apple;Red;something2

df3
Fruit;Color;The_evil_column
Apple;Red;something3

阅读了一些帖子后,我更加困惑了,需要关于这个问题的一些提示。
3个回答

12

你可以生成一个DataFrame的字典:

d = {g:x for g,x in df.groupby('The_evil_column')}

In [95]: d.keys()
Out[95]: dict_keys(['something1', 'something2', 'something3'])

In [96]: d['something1']
Out[96]:
    Fruit   Color The_evil_column
0   Apple     Red      something1
1   Apple   Green      something1
2  Orange  Orange      something1

或者是一个DataFrame列表:

In [103]: l = [x for _,x in df.groupby('The_evil_column')]

In [104]: l[0]
Out[104]:
    Fruit   Color The_evil_column
0   Apple     Red      something1
1   Apple   Green      something1
2  Orange  Orange      something1

In [105]: l[1]
Out[105]:
    Fruit  Color The_evil_column
3  Orange  Green      something2
4   Apple    Red      something2

In [106]: l[2]
Out[106]:
   Fruit Color The_evil_column
5  Apple   Red      something3

更新:

In [111]: g = pd.read_csv(filename, sep=';').groupby('The_evil_column')

In [112]: g.ngroups   # number of unique values in the `The_evil_column` column
Out[112]: 3

In [113]: g.apply(lambda x: x.to_csv(r'c:\temp\{}.csv'.format(x.name)))
Out[113]:
Empty DataFrame
Columns: []
Index: []

会生成3个文件:

In [115]: glob.glob(r'c:\temp\something*.csv')
Out[115]:
['c:\\temp\\something1.csv',
 'c:\\temp\\something2.csv',
 'c:\\temp\\something3.csv']

喜欢那个字典生成(非常好知道!),但我想要的是列表,它完美地工作了,现在我将尝试编写函数,在计算出恶意列中有多少恶意事物后,将数据存储到to_csv中。非常感谢!! - Elias Cort Aguelo
@EliasCortAguelo,很高兴我能帮到你。你的最终目标是什么?将一个CSV文件按The_evil_column列拆分吗? - MaxU - stand with Ukraine
@EliasCortAguelo,请查看更新部分 - 如果我理解正确,它应该做到你想要的... - MaxU - stand with Ukraine
1
哇,太棒了,谢谢!!这正是我所需要的,真的很好。非常感谢MaxU,得到了你的帮助,学到了很多!! - Elias Cort Aguelo
1
这就是为什么访问 df 的方式是通过 l[i][1] ;) - rpanai
显示剩余3条评论

0

你可以通过列的值来过滤帧:

frame=pd.read_csv('file.csv',delimiter=';')
frame['The_evil_column']=='something1'

这将返回:

0     True
1     True
2     True
3    False
4    False
5    False
Name: The_evil_column, dtype: bool

因此,您可以访问这些列:

frame1 = frame[frame['The_evil_column']=='something1']

稍后您可以删除该列:

frame1 = frame1.drop('The_evil_column', axis=1)

0

更简单但不如高效的方法是:

data = pd.read_csv('input.csv')

out = []

for evil_element in list(set(list(data['The_evil_column']))):
    out.append(data[data['The_evil_column']==evil_element])

out 将包含所有数据框的列表。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接