我有一个很大的.xz文件(几个GB),里面全是纯文本。我想处理这些文本以创建自定义数据集。由于文件太大,我想逐行读取。有人知道如何做吗?
我已经尝试过这个如何在内存中打开和读取LZMA文件,但它不起作用。
编辑:我得到了这个错误“ascii”编解码器无法解码位置0的字节0xfd:序数不在范围内(128)
来自链接的
编辑2:我的代码(使用python 3.5)
我已经尝试过这个如何在内存中打开和读取LZMA文件,但它不起作用。
编辑:我得到了这个错误“ascii”编解码器无法解码位置0的字节0xfd:序数不在范围内(128)
来自链接的
for line in uncompressed:
行编辑2:我的代码(使用python 3.5)
with open(filename) as compressed:
with lzma.LZMAFile(compressed) as uncompressed:
for line in uncompressed:
print(line)