如何在Windows控制台中使用Python打印Unicode字符串

13
我正在开发一个Python应用程序,可以在多个平台上向控制台输出多种语言的文本。该程序在所有UNIX平台上运行良好,但是在Windows系统中,在命令行打印Unicode字符串时会出现错误。
已经有一个相关的主题讨论了这个问题:Windows cmd encoding change causes Python crash,但是我在其中找不到我的具体答案。
例如,对于下面的亚洲文字,在Linux上,我可以运行:
>>> print u"\u5f15\u8d77\u7684\u6216".encode("utf-8")
引起的或

但在Windows中我得到:

>>> print u"\u5f15\u8d77\u7684\u6216".encode("utf-8")
σ╝ץΦ╡╖τתהµטצ

我成功地通过消息框显示了正确的文本,当执行类似于这样的操作时:

>>> file("bla.vbs", "w").write(u'MsgBox "\u5f15\u8d77\u7684\u6216", 4, "MyTitle"'.encode("utf-16"))
>>> os.system("cscript //U //NoLogo bla.vbs")

但是,我希望能够在Windows控制台中实现它,并且最好不需要在我的Python代码之外进行太多配置(因为我的应用程序将分发给许多主机)。

这是否可能?

编辑:如果不可能的话,我很乐意接受其他建议,在Windows中编写控制台应用程序以显示Unicode,例如Python实现的替代Windows控制台。


2
简单的答案是否定的。Python输出是面向字节的,但Windows使用UCS2编码,两者不兼容。这是一个大问题,但Python并不是唯一一个与Windows控制台不兼容的语言。 - David Heffernan
4
直觉上,我会说在Windows平台上进行UTF-8的编码是很糟糕的。所有的Windows API调用都是面向Unicode的,并使用UTF-16;而在Linux平台上使用UTF-8区域设置进行转换似乎是正确的做法,但这只是因为输出恰好与系统接受的文本相似。有趣的是,仅仅打印Unicode字符串就会抱怨无法转换字符,尽管控制台完全能够打印这些字符(即使Lucida Console或Consolas中可能没有适合的字形)。 - Joey
3
@chrono Windows控制台是Unicode的,自NT发布近20年以来一直如此。它没有代码页和区域设置。它使用适当的编码方式。问题在于Python期望*nix类型的环境,并未适应Windows。所有的问题和限制都与Python有关。 - David Heffernan
1
@David Heffernan 我恐怕你部分地说错了。程序与控制台交互存在一些重大限制。WriteFile和CRT在Unicode方面存在问题。控制台窗口上的默认字体无法处理Unicode字符。(http://blogs.msdn.com/b/michkap/archive/2011/06/08/10172411.aspx) - jveazey
1
@David Heffernan,这就是我最初说“部分不正确”的原因。控制台函数确实可以使用,但整体上仍存在许多Unicode问题,如WriteFile、ReadFile、CRT、Powershell、重定向句柄、默认字体等。 - jveazey
显示剩余8条评论
5个回答

3

有一个WriteConsoleW的解决方案,它提供了unicode argv和标准输出(print),但没有标准输入(stdin): Windows cmd encoding change causes Python crash

我唯一修改的是sys.argv,使其保持unicode。原始版本出于某种原因对其进行了utf-8编码。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

""" https://dev59.com/aXNA5IYBdhLWcg3wpvpg
"""

import sys

if sys.platform == "win32":
    import codecs
    from ctypes import WINFUNCTYPE, windll, POINTER, byref, c_int
    from ctypes.wintypes import BOOL, HANDLE, DWORD, LPWSTR, LPCWSTR, LPVOID

    original_stderr = sys.stderr

    # If any exception occurs in this code, we'll probably try to print it on stderr,
    # which makes for frustrating debugging if stderr is directed to our wrapper.
    # So be paranoid about catching errors and reporting them to original_stderr,
    # so that we can at least see them.
    def _complain(message):
        print >>original_stderr, message if isinstance(message, str) else repr(message)

    # Work around <http://bugs.python.org/issue6058>.
    codecs.register(lambda name: codecs.lookup('utf-8') if name == 'cp65001' else None)

    # Make Unicode console output work independently of the current code page.
    # This also fixes <http://bugs.python.org/issue1602>.
    # Credit to Michael Kaplan <http://www.siao2.com/2010/04/07/9989346.aspx>
    # and TZOmegaTZIOY
    # <https://dev59.com/aXNA5IYBdhLWcg3wpvpg#1432462
    try:
        # <http://msdn.microsoft.com/en-us/library/ms683231(VS.85).aspx>
        # HANDLE WINAPI GetStdHandle(DWORD nStdHandle);
        # returns INVALID_HANDLE_VALUE, NULL, or a valid handle
        #
        # <http://msdn.microsoft.com/en-us/library/aa364960(VS.85).aspx>
        # DWORD WINAPI GetFileType(DWORD hFile);
        #
        # <http://msdn.microsoft.com/en-us/library/ms683167(VS.85).aspx>
        # BOOL WINAPI GetConsoleMode(HANDLE hConsole, LPDWORD lpMode);

        GetStdHandle = WINFUNCTYPE(HANDLE, DWORD)(("GetStdHandle", windll.kernel32))
        STD_OUTPUT_HANDLE = DWORD(-11)
        STD_ERROR_HANDLE = DWORD(-12)
        GetFileType = WINFUNCTYPE(DWORD, DWORD)(("GetFileType", windll.kernel32))
        FILE_TYPE_CHAR = 0x0002
        FILE_TYPE_REMOTE = 0x8000
        GetConsoleMode = WINFUNCTYPE(BOOL, HANDLE, POINTER(DWORD))(("GetConsoleMode", windll.kernel32))
        INVALID_HANDLE_VALUE = DWORD(-1).value

        def not_a_console(handle):
            if handle == INVALID_HANDLE_VALUE or handle is None:
                return True
            return ((GetFileType(handle) & ~FILE_TYPE_REMOTE) != FILE_TYPE_CHAR
                    or GetConsoleMode(handle, byref(DWORD())) == 0)

        old_stdout_fileno = None
        old_stderr_fileno = None
        if hasattr(sys.stdout, 'fileno'):
            old_stdout_fileno = sys.stdout.fileno()
        if hasattr(sys.stderr, 'fileno'):
            old_stderr_fileno = sys.stderr.fileno()

        STDOUT_FILENO = 1
        STDERR_FILENO = 2
        real_stdout = (old_stdout_fileno == STDOUT_FILENO)
        real_stderr = (old_stderr_fileno == STDERR_FILENO)

        if real_stdout:
            hStdout = GetStdHandle(STD_OUTPUT_HANDLE)
            if not_a_console(hStdout):
                real_stdout = False

        if real_stderr:
            hStderr = GetStdHandle(STD_ERROR_HANDLE)
            if not_a_console(hStderr):
                real_stderr = False

        if real_stdout or real_stderr:
            # BOOL WINAPI WriteConsoleW(HANDLE hOutput, LPWSTR lpBuffer, DWORD nChars,
            #                           LPDWORD lpCharsWritten, LPVOID lpReserved);

            WriteConsoleW = WINFUNCTYPE(BOOL, HANDLE, LPWSTR, DWORD, POINTER(DWORD), LPVOID)(("WriteConsoleW", windll.kernel32))

            class UnicodeOutput:
                def __init__(self, hConsole, stream, fileno, name):
                    self._hConsole = hConsole
                    self._stream = stream
                    self._fileno = fileno
                    self.closed = False
                    self.softspace = False
                    self.mode = 'w'
                    self.encoding = 'utf-8'
                    self.name = name
                    self.flush()

                def isatty(self):
                    return False

                def close(self):
                    # don't really close the handle, that would only cause problems
                    self.closed = True

                def fileno(self):
                    return self._fileno

                def flush(self):
                    if self._hConsole is None:
                        try:
                            self._stream.flush()
                        except Exception as e:
                            _complain("%s.flush: %r from %r" % (self.name, e, self._stream))
                            raise

                def write(self, text):
                    try:
                        if self._hConsole is None:
                            if isinstance(text, unicode):
                                text = text.encode('utf-8')
                            self._stream.write(text)
                        else:
                            if not isinstance(text, unicode):
                                text = str(text).decode('utf-8')
                            remaining = len(text)
                            while remaining:
                                n = DWORD(0)
                                # There is a shorter-than-documented limitation on the
                                # length of the string passed to WriteConsoleW (see
                                # <http://tahoe-lafs.org/trac/tahoe-lafs/ticket/1232>.
                                retval = WriteConsoleW(self._hConsole, text, min(remaining, 10000), byref(n), None)
                                if retval == 0 or n.value == 0:
                                    raise IOError("WriteConsoleW returned %r, n.value = %r" % (retval, n.value))
                                remaining -= n.value
                                if not remaining:
                                    break
                                text = text[n.value:]
                    except Exception as e:
                        _complain("%s.write: %r" % (self.name, e))
                        raise

                def writelines(self, lines):
                    try:
                        for line in lines:
                            self.write(line)
                    except Exception as e:
                        _complain("%s.writelines: %r" % (self.name, e))
                        raise

            if real_stdout:
                sys.stdout = UnicodeOutput(hStdout, None, STDOUT_FILENO, '<Unicode console stdout>')
            else:
                sys.stdout = UnicodeOutput(None, sys.stdout, old_stdout_fileno, '<Unicode redirected stdout>')

            if real_stderr:
                sys.stderr = UnicodeOutput(hStderr, None, STDERR_FILENO, '<Unicode console stderr>')
            else:
                sys.stderr = UnicodeOutput(None, sys.stderr, old_stderr_fileno, '<Unicode redirected stderr>')
    except Exception as e:
        _complain("exception %r while fixing up sys.stdout and sys.stderr" % (e,))


    # While we're at it, let's unmangle the command-line arguments:

    # This works around <http://bugs.python.org/issue2128>.
    GetCommandLineW = WINFUNCTYPE(LPWSTR)(("GetCommandLineW", windll.kernel32))
    CommandLineToArgvW = WINFUNCTYPE(POINTER(LPWSTR), LPCWSTR, POINTER(c_int))(("CommandLineToArgvW", windll.shell32))

    argc = c_int(0)
    argv_unicode = CommandLineToArgvW(GetCommandLineW(), byref(argc))

    argv = [argv_unicode[i] for i in xrange(0, argc.value)]

#    argv = [argv_unicode[i].encode('utf-8') for i in xrange(0, argc.value)]

    if not hasattr(sys, 'frozen'):
        # If this is an executable produced by py2exe or bbfreeze, then it will
        # have been invoked directly. Otherwise, unicode_argv[0] is the Python
        # interpreter, so skip that.
        argv = argv[1:]

        # Also skip option arguments to the Python interpreter.
        while len(argv) > 0:
            arg = argv[0]
            if not arg.startswith(u"-") or arg == u"-":
                break
            argv = argv[1:]
            if arg == u'-m':
                # sys.argv[0] should really be the absolute path of the module source,
                # but never mind
                break
            if arg == u'-c':
                argv[0] = u'-c'
                break

    # if you like:
    sys.argv = argv

1

使用不同的控制台程序。以下命令在Cygwin内置的默认终端模拟器mintty中有效。

>>> print u"\u5f15\u8d77\u7684\u6216"
引起的或

Windows有其他控制台替代方案,但我尚未评估它们的Unicode支持。


我的 Cygwin 版本直接作为控制台程序运行 bash shell,使用 cp437,并且根本没有安装 mintty - Mark Ransom

0

这仅仅是因为cmd和powershell控制台不支持变宽字体。固定字体中没有包含中文字符。Cygwin也是同样的情况。
Putty更加先进,支持带有西里尔文、越南文、阿拉伯文脚本的变宽字体,但目前还不支持中文。

希望对你有所帮助。


-2
你可以尝试在Windows上使用程序iconv,并将Python输出流导入它。具体操作如下:
python foo.py | iconv -f utf-8 -t utf-16

您可能需要一些工作来在Windows上获取iconv - 它是Cygwin的一部分,但如果需要,您可以单独构建它。

2
我相信这最终只会成为一系列输出到控制台的字节。Windows控制台不是面向字节的。 - Joey
如果发生这种情况,也许可以编写一个定制的Win32 CLI过滤程序来正确处理它。就像iconv一样,但是通过使用任何“正确”的输出方法来处理这些怪癖。 - John Zwinck
4
如果Python本质上只考虑字节级别的输出而不是字符级别的输出,那么from win32 import WriteConsole或许会有所帮助 :-) - Joey
1
这正是我需要的,以在Cygwin下使用“cmd”运行Python脚本并获取Unicode输出,谢谢!最终我得到了以下命令:“cmd /c“ py -3 myscript.py ”| iconv -f cp1251 -t utf8”。 - a5kin

-2

这个问题在PrintFails article中已经得到了解答。

默认情况下,Microsoft Windows控制台只显示256个字符(cp437,即Code page 437,原始的IBM-PC 1981扩展ASCII字符集)。

对于俄罗斯来说,这意味着CP866,其他国家也使用自己的代码页。这意味着为了正确地在Windows控制台中读取Python输出,您应该配置本机代码页以显示打印的符号。

我建议您始终打印Unicode文本而不使用任何编码,以确保与各种平台的最大兼容性。

如果您尝试打印不可打印的字符,则会出现UnicodeEncodeError或看到扭曲的文本。

在某些情况下,如果Python无法正确确定输出编码,则可以尝试设置PYTHONIOENCODING环境变量,但请注意,由于当前配置下您的控制台无法呈现亚洲文本,因此这可能不适用于您的示例。

要重新配置控制台,请使用控制面板 -> 语言和区域设置 -> 高级(选项卡) -> 非 Unicode 程序语言(部分)。请注意,菜单名称是我从俄语翻译的。

另请参阅非常相似的问题的答案。


1
这是错误的,参见 David Heffernan 和 Joey 的评论。 - Philipp
我已经完全重写了我的答案。 - Basilevs
菲利普,你能否请修改一下你的评论以适应新内容? - Basilevs
1
这个解决方案不是我想要的... 如果我想让我的Python程序同时打印中文和希腊语,你的解决方案对我来说行不通(在Linux上是可以的)。 - yonix
你应该听从Joey的建议,安装一些额外的win32支持包。 - Basilevs

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接