76得票8回答
设计一个网络爬虫

我遇到了一个面试问题:“如果你要设计一个网络爬虫,你会如何避免陷入无限循环?”我正在尝试回答这个问题。 这一切从开始的地方开始。假设谷歌从一些主页面开始,比如说几百个(如何找到这些主页面是一个不同的子问题)。当谷歌跟随一个页面的链接等等时,它是否会创建一个哈希表来确保它不会再次访问之前已经访...

59得票12回答
使用Hibernate的ScrollableResults逐条读取9000万条记录

我只需要使用Hibernate从MySQL数据库中读取表中的每一行,并根据其编写一个文件。 但是有9000万行数据,这些数据非常庞大。所以以下操作似乎是合适的:ScrollableResults results = session.createQuery("SELECT person FROM...

36得票8回答
更改argv是否可行,还是需要创建一个已调整的副本?

我的应用程序可能需要传递大量参数,我想避免将参数重复拷贝到过滤列表中的内存。 我希望能够原地进行过滤,但是我很确定更改argv数组本身或其指向的任何数据都不是一个好主意。 有什么建议吗?

33得票8回答
许多文本文件中包含大量数据-如何处理?

我有大量数据(几个TB),并且正在积累中...它们包含在许多制表符分隔的文本文件中(每个约30MB)。大部分任务涉及读取数据并根据一系列谓词语句对观测/行进行聚合(求和/平均值+其他转换),然后将输出保存为文本、HDF5或SQLite文件等。我通常使用R来完成这样的任务,但我担心这可能有点太大...

29得票9回答
在R中绘制非常大的数据集

我该如何在R中绘制非常大的数据集? 我想使用箱线图、小提琴图或类似的图表。但是所有的数据无法全部放入内存中。我可以逐步读入并计算需要绘制这些图表所需的摘要吗?如果可以,应该如何操作?

24得票7回答
高效存储7.3亿行数据

您如何解决以下存储和检索问题? 每天将添加大约2,000,000个行(每年365天),每行包含以下信息: - id(唯一的行标识符) - entity_id(取值范围为1至2,000,000,包括1和2,000,000) - date_id(每天递增,取值范围为1至3,650(十年:1 *...

24得票2回答
JDBC批量插入OutOfMemoryError

我编写了一个名为insert()的方法,其中我正在尝试使用JDBC Batch将50万条记录插入到MySQL数据库中:public void insert(int nameListId, String[] names) { String sql = "INSERT INTO name_...

21得票4回答
当你的输入达到千兆字节/太字节大小时会发生什么变化?

今天,我迈出了真正的科学计算的第一步。有人给我展示了一个数据集,其中最小的文件大小为48000个字段乘以1600行(22号染色体上多个人的单倍型)。而这被认为是微不足道的。 我使用Python编程语言,因此过去几个小时我一直在阅读关于HDF5、Numpy和PyTable的资料,但我仍然感觉自...

21得票2回答
Docker数据卷容器 - 我可以在Swarm中共享吗?

我知道如何使用--volumes-from创建和挂载数据卷容器到多个其他容器中,但是我有几个问题关于它的用法和限制: 情况:我想在我的 Web 应用程序中使用数据卷容器来存储用户上传的图像。这个数据卷容器将被许多运行 Web 前端的其他容器使用/挂载。 问题: 数据卷容器可以在 Doc...

20得票2回答
使用Web服务传输大型负载是个不好的主意吗?

我了解,使用REST的POST或GET方式发送数据的数量基本上没有限制。虽然我没有使用过REST或Web服务,但似乎大多数服务都涉及传输有限量的数据。如果您想要传输1-5MB的数据(双向),那么使用Web服务是否是一个不好的选择呢? 更新:我们考虑通过REST服务连接的应用程序是内部应用程序...