18得票4回答
在Linux上编辑非常大的SQL转储/文本文件

我需要导入一个大型的mysql dump(高达10G)。但是,SQL dump已经预定义了数据库结构和索引定义。我想通过删除索引和表格定义来加速数据库插入。 这意味着我必须在Linux上删除/编辑一个10G文本文件的前几行。那么,最有效的方法是什么? 需要将整个文件加载到内存中的程序对我来...

10得票5回答
管理超过500MB的许多文件,使用Git是否值得?

我希望将大量数据(即具有深度 ≤ 5 的目录结构和几百个大小约为500 MB的文件)纳入版本控制中。 我需要一个系统来: - 检测文件是否被更改 - 检测文件是否已添加/删除 - 克隆整个仓库到另一个位置 - 存储“检查点”并稍后进行恢复 对于更改检测,我不需要sha1,可以接受更快的方式...

12得票3回答
Hadoop传输性能问题 - 大文件(20GB)

我正在使用hdfs -put将一个20GB的大文件加载到hdfs中。目前该进程运行时间为4分钟。我正试图改善将数据加载到hdfs中的写入时间。我尝试使用不同的块大小来提高写入速度,但是得到了以下结果:512M blocksize = 4mins; 256M blocksize = 4mins;...

10得票1回答
在大数据集中查找最长公共子串

在过去的几天里,我进行了大量研究,读了很多东西,现在比以前更加困惑了。如何在一个大数据集中找到最长的公共子字符串?这个算法需要连续运行,以从该数据集中删除重复内容(长度各不相同)。所谓大数据集是指大约100MB的文本。 后缀树?后缀数组?Rabin-Karp算法?哪种方法最好?是否有可以帮助...

9得票4回答
在C++中高效读取大型文本

我需要在C++中读取一个大文本文件(> 10 GB)。这是一个具有可变长度行的csv文件。当我尝试使用ifstream逐行读取时,它可以工作但需要很长时间,我猜这是因为每次读取一行时都要去硬盘上读取,这使得速度非常慢。 有没有一种方法可以缓冲读取,例如一次读取250 MB(使用ifstrea...

13得票16回答
大文件下载

Internet Explorer在文件下载方面存在4GB的限制(IE6上为2GB)。Firefox没有这个问题。(尚未测试Safari) (更多信息请参见:http://support.microsoft.com/kb/298618) 我正在开发一个网站,允许用户下载非常大的文件(最大可达...

7得票4回答
Java工具包异常:ZIP文件中的条目太多。

我正在尝试编写一个Java类来提取一个包含约74000个XML文件的大型zip文件。当我尝试使用Java zip库解压它时,会出现以下异常:java.util.zip.ZipException: ZIP文件中的条目太多。很遗憾,由于项目要求,我不能在收到文件之前将zip文件拆分,而且解压过程必...

7得票6回答
使用PHP读取大型Excel文件

我正在尝试使用PHPExcel1.7.3c读取一个17MB的Excel文件(2003版),但是在加载文件时就已经崩溃了,超过了我设定的120秒限制。有没有其他的库可以更高效地完成这个任务?我不需要样式,只需要支持UTF8。谢谢你的帮助。

11得票5回答
PushStreamContent在Web API和Web API 2之间有何不同?

我创建了两个完全相同的Web API项目,一个在VS 2012中,另一个在VS 2013中,都针对4.5的.NET框架。这些项目基于Filip W在此处找到的视频下载教程: http://www.strathweb.com/2013/01/asynchronously-streaming-vi...

10得票1回答
Flask中的大文件上传

我正试图实现一个用于上传文件的Flask应用程序。这个文件可能非常大。例如,大小接近2G。 我已经完成了以下服务器端处理函数:@app.route("/upload/<filename>", methods=["POST", "PUT"]) def upload_process(...