如何在Python中逐个字符读取UTF文件。

Question

如何在Python中逐个字符读取UTF文件。

pythonpython-2.7utf

3

我有一个UTF-8文件，想要将一些2字节的字符替换为一些HTML标签。

我想用Python脚本实现。只需逐个字符读取文件，并进行一些if操作等等即可。

我的问题是，如果逐个字符读取，那么我只会读取一个字节，但有些字符却是1个字节，有些则是2个字节长。

如何解决这个问题？

我基本上需要的功能是能够逐个字符读取，但它会知道这个字符是1个字节还是2个字节的大小。

- WebOrCode

1

发布你已经编写的代码将会很有帮助，同时指出你正在使用的Python版本。 - Paulo Bu

“char”指的是一个代码点吗？在UTF-8中，它们可以达到6个字节。 - Kos

请至少发布您的文件内容示例以及您希望如何读取它们。 - shshank

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Tim Pietzcker · Accepted Answer

您需要在指定正确的编码方式下打开文件。在Python 3中，可以使用以下代码实现：

with open("myfile.txt", "r", encoding="utf-8-sig") as myfile:
    contents = myfile.read()
    for char in contents:
        # do something with character

在Python 2中，你可以使用codecs模块：

import codecs
with codecs.open("myfile.txt", "r", encoding="utf-8-sig") as myfile:
    contents = myfile.read()
    for char in contents:
        # do something with character

请注意，在这种情况下，Python 2 不会自动进行换行符转换，因此您需要显式地处理 \r\n 的行尾。作为替代方案（Python 2），您可以正常打开文件，然后进行解码；这将使行尾规范化为 \n。

with open("myfile.txt", "r") as myfile:
    contents = myfile.read().decode("utf-8-sig")
    for char in contents:
        # do something with character

请注意，在这两种情况下，您将在Python 2中得到Unicode对象，而不是字符串（在Python 3中，所有字符串都是Unicode对象）。