每行末尾只有菱形问号显示的字符(Python>文本)

4
我正在处理一个Python文件,它输入一个包含日文字符(UTF-8)的文本文件,从中提取一些文本,并将其写入一个新的UTF-8文本文件。但是,我遇到了一个问题:在原始输入文件的行末出现日文字符“だ”的时候,它会在输出文件中显示为菱形问号。如果“だ”出现在行末之前,则可以正常读取;即使它出现在行末,原始输入文件也可以正常读取。

使用Python 2.7还是3.x?Python 3.x具有更好的Unicode支持。 - Aaron
这里的解释是关于Java的,但在这里同样适用。 - Chandan Rai
请分享代码片段。 - ZdaR
1个回答

5

由于您没有分享任何代码片段,我建议您使用 codecs 模块以通用方式读写 utf-8 文件,示例如下:

# Reading utf-8 encoded file
with codecs.open("in.txt", "r", encoding="utf-8") as input_data:
    data = input_data.read()

# Write utf-8 encoded file
with codecs.open("out.txt", "w", encoding="utf-8") as output_data:
     output_data.write(data)

顺便说一下,我在给定的字符“だ”上进行了测试,效果非常好。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接