15得票2回答
使用Django在Heroku上上传大文件到AWS S3 Bucket,避免30秒请求超时问题。

我有一个Django应用程序,允许用户上传视频。它托管在Heroku上,上传的文件存储在S3存储桶中。 由于Heroku 30秒请求超时,我使用JavaScript从Django应用程序获取预签名请求后直接将文件上传到S3。 有没有可能通过Django后端上传大文件而不使用JavaScript...

15得票2回答
调用close()后大文件未立即刷新到磁盘?

我正在使用Python脚本创建大文件(超过1GB,实际上有8个文件)。在创建它们之后,我必须创建一个进程来使用这些文件。 脚本如下: # This is more complex function, but it basically does this: def use_file(): ...

15得票4回答
Java的优秀和高效CSV/TSV读取器

我正在尝试读取大型的CSV和TSV(以制表符分隔)文件,其中包含大约1000000行或更多。现在我尝试使用opencsv读取一个包含~2500000行的TSV文件,但它抛出了一个java.lang.NullPointerException异常。它可以处理较小的TSV文件,其中包含~250000...

15得票2回答
如何通过CSVParser处理大型文件?

我有一个大的.csv文件(大约300MB),从远程主机读取并解析成目标文件,但我不需要将所有行都复制到目标文件中。在复制时,我需要从源中读取每一行,如果通过某些谓词,就将该行添加到目标文件中。我认为Apache CSV(apache.commons.csv)只能解析整个文件。CSVFormat...

15得票2回答
使用Python解析大型(20GB)文本文件 - 将2行作为1行读取

我正在解析一个20Gb的文件,并将符合特定条件的行输出到另一个文件中,但是偶尔Python会一次读入两行并将它们连接在一起。inputFileHandle = open(inputFileName, 'r') row = 0 for line in inputFileHandle: ...

14得票7回答
有没有一种分布式版本控制系统可以管理大文件?

有分布式版本控制系统(git, bazaar, mercurial, darcs等)可以处理大于可用RAM的文件吗? 我需要能够提交大型二进制文件(例如数据集、源视频/图像、归档文件),但我不需要对它们进行比较,只是需要在文件更改时提交并更新。 我大约一年前最后查看了这个问题,显然没有一个...

14得票8回答
如何在磁盘上扫描超大型文件?

考虑到磁盘上可能有一个非常大的文件(可能超过4GB),我想扫描该文件并计算特定二进制模式出现的次数。 我的想法是: 使用内存映射文件(CreateFileMap或boost mapped_file)将文件加载到虚拟内存中。 对于每个100MB映射内存,创建一个线程来扫描和计算结果。 ...

14得票8回答
在Python中读取超大文件

我有一个384MB的文本文件,里面有5000万行。每行包含两个用空格隔开的整数:一个键和一个值。该文件按键排序。我需要在Python中查找大约200个键的值的有效方法。 我的当前方法如下所示。它需要30秒钟。肯定有更有效率的Python解决方案,可以将这个时间缩短到最多几秒钟。# list c...

14得票3回答
Python - 如何在不出现MemoryError的情况下压缩大型文本文件?

我使用以下简单的Python脚本,在EC2 m3.large实例上压缩一个大文本文件(比如10GB)。然而,我总是遇到一个MemoryError错误:import gzip with open('test_large.csv', 'rb') as f_in: with gzip.op...

14得票6回答
在C语言中获取大文件的大小

在没有重复问题的情况下,我已经彻底检查了SO,但似乎还没有清晰的答案,尽管问题看起来很简单。我正在寻找一种便携式C代码,即使这样的文件大于4GB,也能提供文件的大小。通常的方法(fseek,ftell)可以正常工作,只要文件保持小于2GB。它已经得到了很好的支持,因此我正在尝试找到等效的东西。...