Python获取Unicode字符串大小

19
我有一个二进制文件。这个文件包含一个UTF-8字符串。而且可以保证这个字符串只是一个单词。 在Python中,我该如何获取这个字符串中的字母数量?
假设我打开了这个文件并读取了字节:
bytes = open("1.dat", "rb").read()

下一步我该怎么做才能找出UTF-8字符串的长度(以字母计算,而不是字节)?

“这个字符串保证只包含一个单词”这句话的相关性是什么? - John Machin
2
不要以二进制模式打开文件。使用 codecs.open 打开它并提供编码参数。问题解决了。 - tchrist
1个回答

36
unicode_string = bytes.decode("utf-8")
print len(unicode_string)

2
在Python 3中,您可以设置bytes = len(open('1.dat', encoding='utf-8').read()) - Cito

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接