从Pandas列表系列中获取唯一值

15

我在DataFrame中有一个包含类别列表的列。例如:

0                                                    [Pizza]
1                                 [Mexican, Bars, Nightlife]
2                                  [American, New, Barbeque]
3                                                     [Thai]
4          [Desserts, Asian, Fusion, Mexican, Hawaiian, F...
6                                           [Thai, Barbeque]
7                           [Asian, Fusion, Korean, Mexican]
8          [Barbeque, Bars, Pubs, American, Traditional, ...
9                       [Diners, Burgers, Breakfast, Brunch]
11                                [Pakistani, Halal, Indian]

我试图做两件事:

1)获取唯一的类别 - 我的方法是创建一个空集合,遍历系列并将每个列表附加到该集合中。

我的代码:

unique_categories = {'Pizza'}
for lst in restaurant_review_df['categories_arr']:
    unique_categories = unique_categories | set(lst)

这让我得到了包含在该列中所有列表中的唯一类别集合。

2)生成类别计数的饼图,每个餐厅可以属于多个类别。例如:餐厅11属于巴基斯坦,印度和清真类别。我的方法是再次遍历类别,并通过系列进行一次迭代以获取计数。

是否有更简单或更优雅的方法?

提前致谢。


你能提供一个带有所需数据的 [mcve] 吗? - cs95
1个回答

25

使用pandas 0.25.0+中的explode进行更新

df['category'].explode().value_counts()

输出:

Barbeque       3
Mexican        3
Fusion         2
Thai           2
American       2
Bars           2
Asian          2
Hawaiian       1
New            1
Brunch         1
Pizza          1
Traditional    1
Pubs           1
Korean         1
Pakistani      1
Burgers        1
Diners         1
Indian         1
Desserts       1
Halal          1
Nightlife      1
Breakfast      1
Name: Places, dtype: int64

并且带有绘图功能:

df['category'].explode().value_counts().plot.pie(figsize=(8,8))

输出:

enter image description here


对于0.25.0之前的旧版本Pandas,请尝试:

df['category'].apply(pd.Series).stack().value_counts()

输出:

Mexican        3
Barbeque       3
Thai           2
Fusion         2
American       2
Bars           2
Asian          2
Pubs           1
Burgers        1
Traditional    1
Brunch         1
Indian         1
Korean         1
Halal          1
Pakistani      1
Hawaiian       1
Diners         1
Pizza          1
Nightlife      1
New            1
Desserts       1
Breakfast      1
dtype: int64

绘图功能:

df['category'].apply(pd.Series).stack().value_counts().plot.pie()

输出:在这里输入图片描述

按照@coldspeed的评论

from itertools import chain
from collections import Counter

pd.DataFrame.from_dict(Counter(chain(*df['category'])), orient='index').sort_values(0, ascending=False)

输出:

Barbeque     3
Mexican      3
Bars         2
American     2
Thai         2
Asian        2
Fusion       2
Pizza        1
Diners       1
Halal        1
Pakistani    1
Brunch       1
Breakfast    1
Burgers      1
Hawaiian     1
Traditional  1
Pubs         1
Korean       1
Desserts     1
New          1
Nightlife    1
Indian       1

2
不要使用df['category'].apply(pd.Series)! 你应该考虑使用Counter + itertools.chain。 - cs95
@coldspeed 是的,为了速度,但如果你正在进行快速分析,我会选择最简单且至少对我来说可读的选项。 - Scott Boston
我也许会两者都做,而不是只做一件事并希望OP能够解决另一个问题。无论如何,对于只有几千行或更少的数据,这将会很"快速"。 - cs95

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接