得票数最多 'large-data-volumes' 问题

关联标签

76得票8回答

设计一个网络爬虫

我遇到了一个面试问题：“如果你要设计一个网络爬虫，你会如何避免陷入无限循环？”我正在尝试回答这个问题。这一切从开始的地方开始。假设谷歌从一些主页面开始，比如说几百个（如何找到这些主页面是一个不同的子问题）。当谷歌跟随一个页面的链接等等时，它是否会创建一个哈希表来确保它不会再次访问之前已经访...

data-structuressearch-engineweb-crawlergoogle-searchlarge-data-volumes

59得票12回答

使用Hibernate的ScrollableResults逐条读取9000万条记录

我只需要使用Hibernate从MySQL数据库中读取表中的每一行，并根据其编写一个文件。但是有9000万行数据，这些数据非常庞大。所以以下操作似乎是合适的：ScrollableResults results = session.createQuery("SELECT person FROM...

javamysqlhibernatelarge-data-volumesscrollableresults

36得票8回答

更改argv是否可行，还是需要创建一个已调整的副本？

我的应用程序可能需要传递大量参数，我想避免将参数重复拷贝到过滤列表中的内存。我希望能够原地进行过滤，但是我很确定更改argv数组本身或其指向的任何数据都不是一个好主意。有什么建议吗？

clarge-data-volumes

33得票8回答

许多文本文件中包含大量数据-如何处理？

我有大量数据（几个TB），并且正在积累中...它们包含在许多制表符分隔的文本文件中（每个约30MB）。大部分任务涉及读取数据并根据一系列谓词语句对观测/行进行聚合（求和/平均值+其他转换），然后将输出保存为文本、HDF5或SQLite文件等。我通常使用R来完成这样的任务，但我担心这可能有点太大...

pythonsqlrlarge-fileslarge-data-volumes

29得票9回答

在R中绘制非常大的数据集

我该如何在R中绘制非常大的数据集？我想使用箱线图、小提琴图或类似的图表。但是所有的数据无法全部放入内存中。我可以逐步读入并计算需要绘制这些图表所需的摘要吗？如果可以，应该如何操作？

rplotlarge-data-volumes

24得票7回答

高效存储7.3亿行数据

您如何解决以下存储和检索问题？每天将添加大约2,000,000个行（每年365天），每行包含以下信息： - id（唯一的行标识符） - entity_id（取值范围为1至2,000,000，包括1和2,000,000） - date_id（每天递增，取值范围为1至3,650（十年：1 *...

sqlmysqldatabasedata-warehouselarge-data-volumes

24得票2回答

JDBC批量插入OutOfMemoryError

我编写了一个名为insert()的方法，其中我正在尝试使用JDBC Batch将50万条记录插入到MySQL数据库中：public void insert(int nameListId, String[] names) { String sql = "INSERT INTO name_...

jdbcbatch-filelarge-data-volumesout-of-memory

21得票4回答

当你的输入达到千兆字节/太字节大小时会发生什么变化？

今天，我迈出了真正的科学计算的第一步。有人给我展示了一个数据集，其中最小的文件大小为48000个字段乘以1600行（22号染色体上多个人的单倍型）。而这被认为是微不足道的。我使用Python编程语言，因此过去几个小时我一直在阅读关于HDF5、Numpy和PyTable的资料，但我仍然感觉自...

pythonlarge-data-volumesscientific-computing

21得票2回答

Docker数据卷容器 - 我可以在Swarm中共享吗？

我知道如何使用--volumes-from创建和挂载数据卷容器到多个其他容器中，但是我有几个问题关于它的用法和限制：情况：我想在我的 Web 应用程序中使用数据卷容器来存储用户上传的图像。这个数据卷容器将被许多运行 Web 前端的其他容器使用/挂载。问题：数据卷容器可以在 Doc...

dockerlarge-data-volumesdocker-swarm

20得票2回答

使用Web服务传输大型负载是个不好的主意吗？

我了解，使用REST的POST或GET方式发送数据的数量基本上没有限制。虽然我没有使用过REST或Web服务，但似乎大多数服务都涉及传输有限量的数据。如果您想要传输1-5MB的数据（双向），那么使用Web服务是否是一个不好的选择呢？更新：我们考虑通过REST服务连接的应用程序是内部应用程序...

web-servicesrestlarge-data-volumes