大型公共数据集?

69

我正在寻找一些大型公共数据集,具体包括:

  1. 已经去匿名处理的大规模网站服务器日志。

  2. 用于数据库性能基准测试的数据集。

欢迎提供其他大型公共数据集的链接。我已经知道亚马逊的公共数据集:http://aws.amazon.com/publicdatasets/


8
请定义“大”?1百万行?1 GB?1 TB?1 PB?还是更多? - GreyCat
这些数据集对分析访问日志有用吗? - NIMISHAN
您可以在此处找到一些有趣的数据集,涵盖了从自然语言处理(NLP)、命名实体识别(NER)到图像分类和边界框等多个领域:https://dataturks.com/projects/trending - NooB8374
13个回答

30

1. 匿名化的大型样本网络服务器日志。

以下数据集可供使用:

除了这些数据集之外,还有很多其他可用的数据集(请参见其他答案),但这些是符合您最初标准的最易获取的数据集。作为额外的福利,如果您有特定需求,它们还提供联系链接

2. 用于数据库性能基准测试的数据集。

这听起来像一个错误的名称,因为您正在寻找描述明确定义的 算法 问题的实证数据集。具体而言,看起来您正在尝试找到一组数据,以便使用明确定义的、规范化的关系型数据在实时环境下测试和基准测试各种数据库系统,这些数据可以用作测试案例集,以确定满足您需求的最有效解决方案。

我不同意这种方法。与其找到一系列数据库系统及其预制实现,还不如首先探索这些系统的算法保证,例如B+树图形数据库。一旦确定了满足需求的算法约束条件,就可以针对例如索引、排序、搜索、插入、删除和检索等效率进行基准测试,并进一步优化。
维基百科提供了关于数据库测试概念的简短文章,您可以使用它来确定和编写测试用例以进行性能基准测试。例如,您可以使用类似于JDBCJDBC基准测试的通用数据访问接口来确定每个操作的相对时间。从这里开始,您可以精确确定正确的解决方案。
简而言之,首先访问研究以确定数据库保证。一旦确定了一组候选解决方案,您可以通过测试(或以其他方式确定)每个所需操作的恒定时间性能来从中选择。

1
是的,这是一个老旧的帖子,但对于问题的两个部分都值得有一个更现代的答案。祝愿那些在未来发现这是他们正确解决方案的有用指标的人好运。 - MrGomez
1
赏金使用的标准:最大努力。没有一个答案单独看起来特别好(我也没指望有好的答案),但总的来说,我很高兴这个主题有更多回答。 - sethcall

28

基于Quora答案和我个人在学习中收集的资料,我们创建了一个并且不断更新的awesome-public-datasets 数据库存储在GitHub上:

以下是此列表的快照版本。如需获取最新列表,请访问Github

这份公共数据源列表是从博客、回答和用户响应中收集和整理而来的。下面列出的大多数数据集都是免费的,但是有些不是。此列表来源于https://github.com/caesar0301/awesome-public-datasets

气候

澳大利亚天气:http://www.bom.gov.au/climate/dwo/ 气候数据:http://www.cru.uea.ac.uk/cru/data/temperature/#datterftp://ftp.cmdl.noaa.gov/ 自1929年以来的全球气候数据:http://www.tutiempo.net/en/Climate NOAA白令海气候:http://www.beringclimate.noaa.gov/ NOAA气候数据集:http://ncdc.noaa.gov/data-access/quick-links WU历史气象全球:http://www.wunderground.com/history/index.html 经济学

金融

生物学

物理学

医疗保健

地理空间

交通運輸

航空公司数据(2009 ASA挑战):http://stat-computing.org/dataexpo/2009/the-data.html 机场及其位置:http://www.infochimps.com/datasets/airports-and-their-locations 自行车共享数据系统:https://github.com/BetaNYC/Bike-Share-Data-Best-Practices/wiki/Bike-Share-Data-Systems 1990年至2009年美国国内航班的边缘数据:http://data.memect.com/?p=229 五十万次Hubway骑行记录:http://hubwaydatachallenge.org/trip-history-data/ 纽约市出租车行程数据2013(FOIA / FOIL):https://archive.org/details/nycTaxiTripData2013 OpenFlights(机场,航空公司和路线数据):http://openflights.org/data.html RITA航空公司准点表现数据:http://www.transtats.bts.gov/Tables.asp?DB_ID=120 RITA运输数据收集:http://www.transtats.bts.gov/DataIndex.asp 伦敦交通:http://www.tfl.gov.uk/info-for/open-data-users/our-feeds 美国货运分析框架:http://ops.fhwa.dot.gov/freight/freight_analysis/faf/index.htm

政府

数据挑战

机器学习

自然语言

图像处理

时间序列

社会科学

复杂网络

CrossRef DOI网址:https://archive.org/details/doi-urls DBLP引用数据集:https://kdl.cs.umass.edu/display/public/DBLP NBER专利引文:http://nber.org/patents/ NIST复杂网络数据集合:http://math.nist.gov/~RPozo/complex_datasets.html 蛋白质相互作用网络:http://vlado.fmf.uni-lj.si/pub/networks/data/bio/Yeast/Yeast.htm PyPI和Maven依赖关系网络:http://ogirardot.wordpress.com/2013/01/31/sharing-pypimaven-dependency-data/ Scopus引文数据库:http://www.elsevier.com/online-tools/scopus 斯坦福图形库(Steven Skiena):http://www3.cs.stonybrook.edu/~algorith/implement/graphbase/implement.shtml 斯坦福大型网络数据集合:http://snap.stanford.edu/data/ 科布伦茨网络收集:http://konect.uni-koblenz.de/ UCI网络数据存储库:http://networkdata.ics.uci.edu/resources.php UFL稀疏矩阵收集:http://www.cise.ufl.edu/research/sparse/matrices/ UNIMI大型网络图:http://law.di.unimi.it/datasets.php WSU图数据库:http://www.eecs.wsu.edu/mgd/gdb.html

计算机网络

数据搜索引擎

公共领域

互补集合


在上述计算机网络标题中是否有代理数据? - NIMISHAN


9

3

3

对于网络服务器日志,您可以随时生成所需格式的日志。如果您要对其进行代码测试等操作,则必须根据要存储/解析的字段进行定制。

对于用于数据库性能基准测试的数据集,您可能需要查看一个可以为您生成数据的工具。Red Gate有一个很好的工具,价格不太高。


1

http://Quandl.com有超过1000万个数据集,从互联网上搜集而来。这个资源的好处在于它提供了一个统一的访问所有数据的方式。该网站有免费的Excel插件,也可以使用R、Python、Ruby等库。


1
可在此处获取数据集。

1
Kaggle.com经常会有数据挖掘的挑战。这些数据集涵盖了广泛的领域:从医疗保健提供者数据到信用历史信息。也许那里有你需要的东西。

0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接