我正在处理一个Python文件,它输入一个包含日文字符(UTF-8)的文本文件,从中提取一些文本,并将其写入一个新的UTF-8文本文件。但是,我遇到了一个问题:在原始输入文件的行末出现日文字符“だ”的时候,它会在输出文件中显示为菱形问号。如果“だ”出现在行末之前,则可以正常读取;即使它出现在行末,原始输入文件也可以正常读取。
由于您没有分享任何代码片段,我建议您使用 codecs
模块以通用方式读写 utf-8
文件,示例如下:
# Reading utf-8 encoded file
with codecs.open("in.txt", "r", encoding="utf-8") as input_data:
data = input_data.read()
# Write utf-8 encoded file
with codecs.open("out.txt", "w", encoding="utf-8") as output_data:
output_data.write(data)
顺便说一下,我在给定的字符“だ”上进行了测试,效果非常好。