Python-统计2D列表中元素频率

5

我想知道是否有一种方法可以计算2D Python列表中元素的频率。对于1D列表,我们可以使用

list.count(word)

但如果我有一个列表:

a = [ ['hello', 'friends', 'its', 'mrpycharm'], 
      ['mrpycharm', 'it', 'is'], 
      ['its', 'mrpycharm'] ]

我可以在这个二维列表中找到每个单词的频率吗?
3个回答

7
假设我理解您的意思,
>>> collections.Counter([x for sublist in a for x in sublist])
Counter({'mrpycharm': 3, 'its': 2, 'friends': 1, 'is': 1, 'it': 1, 'hello': 1})

或者,

>>> c = collections.Counter()
>>> for sublist in a:
...     c.update(sublist)
...
>>> c
Counter({'mrpycharm': 3, 'its': 2, 'friends': 1, 'is': 1, 'it': 1, 'hello': 1})

你知道使用生成器表达式而不是列表推导是否会加快速度吗?Counter(x for sublist in a for x in sublist) - Patrick Haugh

4
您可以使用一个 defaultdict:
from collections import defaultdict
d = defaultdict(int)
for sublist in a:
    for word in sublist:
        d[word] += 1

1
@juanpa.arrivillaga 为什么这是一个错误的集合? - Ahmed Dhanani
看看 sberry 的回答。 - juanpa.arrivillaga
但这似乎也很好用。 - Ahmed Dhanani
1
@juanpa.arrivillaga:但这并不意味着它是错误的集合。 - Moinuddin Quadri
它运行良好。普通的 dict 也可以正常工作。但是,如果您已经要从 collections 导入,为什么不使用专门用于计数元素的集合呢? - juanpa.arrivillaga
2
不是错误的集合,只是不同的选择。在2.7版本引入之前,这正是我会做的。就我机器上的数据大小(和CPython2.7)而言,这个解决方案比使用Counter快50%以上。 - sberry

1

你已经知道了list.count()。只需要获取每个子列表中单词的计数并将它们相加即可。例如:

>>> my_word = 'its'
>>> sum(sublist.count(my_word) for sublist in a)
2

如果您想要获取列表中每个单词出现的频率,这里有很多好的答案可供参考。或者,如果您想要不使用任何导入(使用普通字典)来完成此操作,则可以执行以下操作:
my_dict = {}
for sublist in a:
    for item in sublist:
        if item not in my_dict:
            my_dict[item] = 0
        my_dict[item] += 1

# Value of my_dict:
{'friends': 1, 'is': 1, 'it': 1, 'its': 2, 'mrpycharm': 3, 'hello': 1}

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接