10得票7回答
在SQL Server数据库中将一个列复制到另一个列,针对超过十亿行的数据。

数据库:SQL Server 2005 问题:如何将同一表中一个包含十亿行的列的值复制到另一个列中?test_table (int id, bigint bigid) 尝试的事情1:更新查询update test_table set bigid = id 由于事务日志空间不足,填满了事务日志...

8得票4回答
大规模爬取/解析的技术是什么?

我们正在设计一个大规模的网络爬虫/解析项目。基本上,脚本需要浏览网页列表,提取特定标签的内容,并将其存储在数据库中。 你会推荐哪种语言用于处理数百万个页面的大规模任务? 我们正在使用 MongoDB 作为数据库,因此任何具有可靠 MongoDB 驱动程序的语言都是加分项。 到目前为止,我们一直...

29得票9回答
在R中绘制非常大的数据集

我该如何在R中绘制非常大的数据集? 我想使用箱线图、小提琴图或类似的图表。但是所有的数据无法全部放入内存中。我可以逐步读入并计算需要绘制这些图表所需的摘要吗?如果可以,应该如何操作?

59得票12回答
使用Hibernate的ScrollableResults逐条读取9000万条记录

我只需要使用Hibernate从MySQL数据库中读取表中的每一行,并根据其编写一个文件。 但是有9000万行数据,这些数据非常庞大。所以以下操作似乎是合适的:ScrollableResults results = session.createQuery("SELECT person FROM...

20得票4回答
如何在有很多很多页面的情况下进行页面导航?对数式页面导航

如何最好地展示许多页面的页面导航? 假设您向用户显示一组记录,这些记录被分成固定大小的页面(例如Google搜索结果)。如果只有几页,您可以在结果末尾显示一个页面导航区域,看起来像这样: [ 4 5 6 7 8 9 10 11 12 13 [ > ] [ >> ] 但是,如果有超过20或...

21得票4回答
当你的输入达到千兆字节/太字节大小时会发生什么变化?

今天,我迈出了真正的科学计算的第一步。有人给我展示了一个数据集,其中最小的文件大小为48000个字段乘以1600行(22号染色体上多个人的单倍型)。而这被认为是微不足道的。 我使用Python编程语言,因此过去几个小时我一直在阅读关于HDF5、Numpy和PyTable的资料,但我仍然感觉自...

18得票6回答
如何避免在从大型表中检索所有记录时出现OOM(内存不足)错误?

我得到了一个将大型表格转换为自定义XML文件的任务。我将使用Java完成此工作。 如果我只是发出一个"SELECT * FROM customer",它可能会返回大量数据,最终导致OOM。我想知道,是否有一种方法可以在记录一旦可用后立即处理记录,并在sql检索过程中从内存中删除记录? --...

8得票1回答
大规模稀疏矩阵的奇异值分解Java实现

我想知道是否有人知道针对大型稀疏矩阵的java奇异值分解(SVD)实现?我需要这个实现来进行潜在语义分析(LSA)。 我尝试过UJMP和JAMA的软件包,但当行数≥1000且列数≥500时它们会出现问题。如果有人能指点我一些伪代码或其他资源,那将不胜感激。

76得票8回答
设计一个网络爬虫

我遇到了一个面试问题:“如果你要设计一个网络爬虫,你会如何避免陷入无限循环?”我正在尝试回答这个问题。 这一切从开始的地方开始。假设谷歌从一些主页面开始,比如说几百个(如何找到这些主页面是一个不同的子问题)。当谷歌跟随一个页面的链接等等时,它是否会创建一个哈希表来确保它不会再次访问之前已经访...

10得票10回答
如果2的32次方不够用,该怎么办?

如果一个表中的记录数量太多,以至于在给定的时间段(日、周、月等)内,自增ID所需的2^32不足够怎么办?MySQL提供的最大数据类型还不够怎么处理? 我想知道,在需要唯一ID的表中添加了如此多的记录时,应该如何解决这种情况,而且我在一个时间段内就已经填满了我的数据类型? 如何在 MySQL...