我使用一个第三方工具输出Unicode格式的文件,但我更喜欢它是ASCII格式。该工具没有更改文件格式的设置。
使用Python转换整个文件格式的最佳方法是什么?
unicode
函数进行文件转换,但是如果Unicode字符没有与直接ASCII等价物时将会遇到问题。unicodedata
模块,该模块似乎能够处理粗略的字符转换而不需要对应的ASCII值,例如:>>> title = u"Klüft skräms inför på fédéral électoral große"
通常会转换为
Klft skrms infr p fdral lectoral groe
这是相当错误的。不过,使用unicodedata
模块,结果可以更接近原始文本:
>>> import unicodedata
>>> unicodedata.normalize('NFKD', title).encode('ascii','ignore')
'Kluft skrams infor pa federal electoral groe'
我认为这比你意识到的要深刻得多。仅仅将文件从Unicode转换为ASCII是很容易的,但是让所有的Unicode字符都翻译成合理的ASCII对应字符(许多字母在两种编码中都不可用)则是另一个问题。
这篇Python Unicode教程可以让您更好地了解将Unicode字符串翻译成ASCII会发生什么:http://www.reportlab.com/i18n/python_unicode_tutorial.html
以下是该网站上的有用引用:
Python 1.6还提供了一个“unicode”内置函数,您可以指定编码方式:
> >>> unicode('hello') u'hello'
> >>> unicode('hello', 'ascii') u'hello'
> >>> unicode('hello', 'iso-8859-1') u'hello'
> >>>
这三种编码方式返回的内容相同,因为“Hello”中的字符在所有三种编码方式中都是通用的。
现在让我们对带有欧洲口音的内容进行编码,这是超出ASCII范围的。您在控制台上看到的内容可能取决于您的操作系统语言环境;Windows让我输入ISO-Latin-1。
> >>> a = unicode('André','latin-1')
> >>> a u'Andr\202'
如果您无法输入重音字母e, 您可以输入字符串'Andr\202', 这是无歧义的。
Unicode支持所有常见的 操作,如迭代和拆分。 我们不会在此详述。
iconv
可以完成这种工作。iconv -f utf8 -t ascii <input.txt >output.txt
我遇到一个问题,我只想跳过非ASCII字符,并只输出ASCII字符,以下解决方案非常有效:
import unicodedata
input = open(filename).read().decode('UTF-16')
output = unicodedata.normalize('NFKD', input).encode('ASCII', 'ignore')
就像这样:
uc = open(filename).read().decode('utf8')
ascii = uc.decode('ascii')
这是一些简单(且愚蠢)的代码来进行编码转换。我假设(但你不应该这么做)输入文件采用UTF-16编码(Windows将其称为“Unicode”)。
input_codec = 'UTF-16'
output_codec = 'ASCII'
unicode_file = open('filename')
unicode_data = unicode_file.read().decode(input_codec)
ascii_file = open('new filename', 'w')
ascii_file.write(unicode_data.write(unicode_data.encode(output_codec)))
ascii_file.write(unicode_data.write(unicode_data.encode(output_codec, 'replace')))
查看文档以获取更简单的选择。如果您需要进行更复杂的操作,可以查看Python食谱中的UNICODE Hammer。
mystring = u'bar'
type(mystring)
<type 'unicode'>
myasciistring = (mystring.encode('ASCII'))
type(myasciistring)
<type 'str'>
需要注意的是,不存在“Unicode”文件格式。 Unicode可以以多种不同的方式编码为字节。 最常见的是UTF-8或UTF-16。 您需要知道您的第三方工具输出的编码方式。 一旦您知道了这一点,转换不同的编码之间就很容易:
in_file = open("myfile.txt", "rb")
out_file = open("mynewfile.txt", "wb")
in_byte_string = in_file.read()
unicode_string = bytestring.decode('UTF-16')
out_byte_string = unicode_string.encode('ASCII')
out_file.write(out_byte_string)
out_file.close()
正如其他回答中所指出的那样,您可能需要为编码方法提供一个错误处理程序。使用“replace”作为错误处理程序很简单,但如果文本包含无法表示为ASCII的字符,则会破坏您的文本。
unicodedata
的基础上进行特殊情况下的替换:http://effbot.org/zone/unicode-convert.htm - rcoup