针对给定的字符串,我想要统计每个单词和表情符号出现的次数。我已经在这里对仅由一个表情符号组成的表情符号进行了统计(链接)。但问题在于很多当前的表情符号是由几个表情符号组成的。
比如表情符号 是由四个表情符号—— 、、和带有人类肤色的表情符号——组成的,例如 等。
问题归结为如何正确分割字符串,接下来进行计数就很容易了。
关于这个问题,有一些好的解答,比如 链接1 和 链接2,但没有一个适用于一般的解决方案(或者解决方案已过时,或者我只是无法理解)。
举个例子,如果字符串是
我尝试了很多次,但效果不佳。非常感谢你的帮助!
比如表情符号 是由四个表情符号—— 、、和带有人类肤色的表情符号——组成的,例如 等。
问题归结为如何正确分割字符串,接下来进行计数就很容易了。
关于这个问题,有一些好的解答,比如 链接1 和 链接2,但没有一个适用于一般的解决方案(或者解决方案已过时,或者我只是无法理解)。
举个例子,如果字符串是
hello emoji hello
,那么我会得到 {'hello':2, 'emoji':1, '':1, '':1}
。我的字符串来自WhatsApp,并且都是以UTF8编码的。我尝试了很多次,但效果不佳。非常感谢你的帮助!