Python的open("x", "r")函数，我如何知道或控制文件应该具有哪种编码？

Question

8

如果一个Python脚本使用open("filename", "r")函数打开并读取文本文件的内容，我该如何确定这个文件应该具有哪种编码？

请注意，由于我正在从自己的程序中执行此脚本，如果通过环境变量可以控制此操作的任何方式，那么对我来说就足够了。

顺便说一下，这是Python 2.7。

相关代码来自Mercurial，它可以通过磁盘上的文件而不是通过命令行将文件添加到存储库中。因此，基本上不是这样：

hg add A B C

我可以将A、B和C写入文件中，每个之间用换行符分隔，然后执行以下操作：

hg add listfile:input.txt

读取此文件的代码如下所示：

files = open(name, 'r').read().split(delimiter)

因此，我有一个问题。当我询问应该使用哪种编码时，在IRC上给我的答案是这样的：

当你在命令行中传递文件参数时使用的编码与它相同

我理解为当我执行Mercurial（hg）时使用的编码与此相同。因为我不知道那是哪种编码，所以我把所有东西都交给.NET进程对象，现在在这里问问。

- Lasse V. Karlsen

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Cameron · Accepted Answer

你无法做到。读取文件与其编码无关；你需要事先知道编码以便正确解释所读取的字节。例如，如果你知道文件是使用UTF-8编码的：

with open('filename', 'rb') as f:
    contents = f.read().decode('utf-8-sig')    # -sig deals with BOM, if present

或者，如果您知道该文件仅为 ASCII：

with open('filename', 'r') as f:
    contents = f.read()    # results in a str object

如果您真的不知道文件的编码方式，那么就无法保证您能正确地阅读它；但是，您可以使用像chardet这样的工具猜测编码方式。

更新：

我现在明白了你的问题。我以为你有一个需要编写代码的文件，但似乎你需要为文件编写代码 ;-)

所涉及的代码可能只处理纯ASCII（字符串可能稍后转换，但我认为这不太可能）。因此，您需要创建一个仅包含ASCII字符（代码点<128）的文本文件，并确保它以ASCII编码保存（即不是UTF-16或类似的编码方式）。考虑到Mercurial处理文件名，其中可能包含Unicode字符，这有点不幸。