给定一个文本文件(或Unicode字符串),有什么好的方法来检测超出ASCII编码范围的字符?我可以轻松地迭代每个字符到
最终目标是编译数据中无法编码为ASCII的字符列表。
如果有影响的话,我的语料库大小大约为500MB / 1200个文本文件。在Win7(64位)上运行(预编译的普通)Python 3.3.1。
ord()
,但是我想知道是否有更有效、更优雅或者更惯用的方法。最终目标是编译数据中无法编码为ASCII的字符列表。
如果有影响的话,我的语料库大小大约为500MB / 1200个文本文件。在Win7(64位)上运行(预编译的普通)Python 3.3.1。