使用Python逐行读取大型压缩文本文件

Question

使用Python逐行读取大型压缩文本文件

35

我正在尝试使用zipfile模块从归档文件中读取文件。未压缩的文件大小约为3GB，而压缩文件大小为200MB。由于我需要逐行处理压缩文件，因此不想将它们都加载到内存中。目前，使用以下代码时注意到了内存过度使用：

import zipfile
f = open(...)
z = zipfile.ZipFile(f)
for line in zipfile.open(...).readlines()
  print line

我使用SharpZipLib在C#中完成了这个操作:

var fStream = File.OpenRead("...");
var unzipper = new ICSharpCode.SharpZipLib.Zip.ZipFile(fStream);
var dataStream =  unzipper.GetInputStream(0);

dataStream未经压缩，我似乎找不到在Python中完成此操作的方法。希望能得到帮助。

- Sonia

2个回答

0

如果压缩文件中的内部目录和子目录文件名不重要，您可以尝试以下方法：

from zipfile import ZipFile
from io import TextIOWrapper

def zip_open(filename):
    """Wrapper function that for zipfiles."""
    with ZipFile(filename) as zipfin:
        for filename in zipfin.namelist():
            return TextIOWrapper(zipfin.open(filename))

# Usage of the zip_open function)
with zip_open('myzipball.zip') as fin:
    for line in fin:
        print(line)

zip_open 在 zip 文件中包含单个或多个文件且没有子目录时运行良好。但是，如果压缩文件中存在复杂的子目录结构，则不确定简单的 for filename in zipfin.namelist() 是否有效。

- alvas

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Gareth Latty · Accepted Answer

Python文件对象提供迭代器，可以逐行读取。 file.readlines() 会一次性读取所有行并返回一个列表 - 这意味着它需要将所有内容读入内存中。更好的方法（始终优先于readlines()）是直接循环遍历对象本身，例如：

import zipfile
with zipfile.ZipFile(...) as z:
    with z.open(...) as f:
        for line in f:
            print line

请注意我使用了with语句 - 文件对象是上下文管理器，而with语句使我们能够轻松编写可读代码，确保在退出块时关闭文件(即使出现异常)。再次强调，在处理文件时应始终使用此方法。