我有一个字符串,看起来像这样:
string = 'TTHHTHHTHHHHTTHHHTTT'
我该如何计算字符串中的运行次数,以便得到:
5个T的运行和4个H的运行
itertools.groupby
和 collections.Counter
的组合:>>> from itertools import groupby
>>> from collections import Counter
>>> strs = 'TTHHTHHTHHHHTTHHHTTT'
>>> Counter(k for k, g in groupby(strs))
Counter({'T': 5, 'H': 4})
itertools.groupby
函数可以根据关键字对项进行分组。(默认情况下,关键字为可迭代对象中的项)>>> from pprint import pprint
>>> pprint([(k, list(g)) for k, g in groupby(strs)])
[('T', ['T', 'T']),
('H', ['H', 'H']),
('T', ['T']),
('H', ['H', 'H']),
('T', ['T']),
('H', ['H', 'H', 'H', 'H']),
('T', ['T', 'T']),
('H', ['H', 'H', 'H']),
('T', ['T', 'T', 'T'])]
这里的第一个项目是基于它进行分组的关键字(k
),而list(g)
是与该关键字相关的组。由于我们只对key
部分感兴趣,所以我们可以将k
传递给collections.Counter
来获取所需的答案。
为了多样性,采用基于re
的方法
import re
letters = ['H', 'T']
matches = re.findall(r'({})\1*'.format('|'.join(letters)), 'TTHHTHHZTHHHHTTHHHTTT')
print matches
['T', 'H', 'T', 'H', 'T', 'H', 'T', 'H', 'T']
[(letter, matches.count(letter)) for letter in letters]
[('H', 4), ('T', 5)]