最新 'large-data-volumes' 问题

关联标签

10得票7回答

数据库：SQL Server 2005 问题：如何将同一表中一个包含十亿行的列的值复制到另一个列中？test_table (int id, bigint bigid) 尝试的事情1：更新查询update test_table set bigid = id 由于事务日志空间不足，填满了事务日志...

8得票4回答

我们正在设计一个大规模的网络爬虫/解析项目。基本上，脚本需要浏览网页列表，提取特定标签的内容，并将其存储在数据库中。你会推荐哪种语言用于处理数百万个页面的大规模任务？我们正在使用 MongoDB 作为数据库，因此任何具有可靠 MongoDB 驱动程序的语言都是加分项。到目前为止，我们一直...

29得票9回答

我该如何在R中绘制非常大的数据集？我想使用箱线图、小提琴图或类似的图表。但是所有的数据无法全部放入内存中。我可以逐步读入并计算需要绘制这些图表所需的摘要吗？如果可以，应该如何操作？

59得票12回答

我只需要使用Hibernate从MySQL数据库中读取表中的每一行，并根据其编写一个文件。但是有9000万行数据，这些数据非常庞大。所以以下操作似乎是合适的：ScrollableResults results = session.createQuery("SELECT person FROM...

20得票4回答

如何最好地展示许多页面的页面导航？假设您向用户显示一组记录，这些记录被分成固定大小的页面（例如Google搜索结果）。如果只有几页，您可以在结果末尾显示一个页面导航区域，看起来像这样： [ 4 5 6 7 8 9 10 11 12 13 [ > ] [ >> ] 但是，如果有超过20或...

21得票4回答

今天，我迈出了真正的科学计算的第一步。有人给我展示了一个数据集，其中最小的文件大小为48000个字段乘以1600行（22号染色体上多个人的单倍型）。而这被认为是微不足道的。我使用Python编程语言，因此过去几个小时我一直在阅读关于HDF5、Numpy和PyTable的资料，但我仍然感觉自...

18得票6回答

我得到了一个将大型表格转换为自定义XML文件的任务。我将使用Java完成此工作。如果我只是发出一个"SELECT * FROM customer"，它可能会返回大量数据，最终导致OOM。我想知道，是否有一种方法可以在记录一旦可用后立即处理记录，并在sql检索过程中从内存中删除记录？ --...

8得票1回答

我想知道是否有人知道针对大型稀疏矩阵的java奇异值分解（SVD）实现？我需要这个实现来进行潜在语义分析（LSA）。我尝试过UJMP和JAMA的软件包，但当行数≥1000且列数≥500时它们会出现问题。如果有人能指点我一些伪代码或其他资源，那将不胜感激。

76得票8回答

我遇到了一个面试问题：“如果你要设计一个网络爬虫，你会如何避免陷入无限循环？”我正在尝试回答这个问题。这一切从开始的地方开始。假设谷歌从一些主页面开始，比如说几百个（如何找到这些主页面是一个不同的子问题）。当谷歌跟随一个页面的链接等等时，它是否会创建一个哈希表来确保它不会再次访问之前已经访...

10得票10回答

如果一个表中的记录数量太多，以至于在给定的时间段（日、周、月等）内，自增ID所需的2^32不足够怎么办？MySQL提供的最大数据类型还不够怎么处理？我想知道，在需要唯一ID的表中添加了如此多的记录时，应该如何解决这种情况，而且我在一个时间段内就已经填满了我的数据类型？如何在 MySQL...