我正在寻找一些大型公共数据集,具体包括:
已经去匿名处理的大规模网站服务器日志。
用于数据库性能基准测试的数据集。
欢迎提供其他大型公共数据集的链接。我已经知道亚马逊的公共数据集:http://aws.amazon.com/publicdatasets/
我正在寻找一些大型公共数据集,具体包括:
已经去匿名处理的大规模网站服务器日志。
用于数据库性能基准测试的数据集。
欢迎提供其他大型公共数据集的链接。我已经知道亚马逊的公共数据集:http://aws.amazon.com/publicdatasets/
1. 匿名化的大型样本网络服务器日志。
以下数据集可供使用:
除了这些数据集之外,还有很多其他可用的数据集(请参见其他答案),但这些是符合您最初标准的最易获取的数据集。作为额外的福利,如果您有特定需求,它们还提供联系链接。
2. 用于数据库性能基准测试的数据集。
这听起来像一个错误的名称,因为您正在寻找描述明确定义的 算法 问题的实证数据集。具体而言,看起来您正在尝试找到一组数据,以便使用明确定义的、规范化的关系型数据在实时环境下测试和基准测试各种数据库系统,这些数据可以用作测试案例集,以确定满足您需求的最有效解决方案。
我不同意这种方法。与其找到一系列数据库系统及其预制实现,还不如首先探索这些系统的算法保证,例如B+树和图形数据库。一旦确定了满足需求的算法约束条件,就可以针对例如索引、排序、搜索、插入、删除和检索等效率进行基准测试,并进一步优化。基于Quora答案和我个人在学习中收集的资料,我们创建了一个并且不断更新的awesome-public-datasets 数据库存储在GitHub上:
以下是此列表的快照版本。如需获取最新列表,请访问Github:
这份公共数据源列表是从博客、回答和用户响应中收集和整理而来的。下面列出的大多数数据集都是免费的,但是有些不是。此列表来源于https://github.com/caesar0301/awesome-public-datasets。
对于网络服务器日志,您可以随时生成所需格式的日志。如果您要对其进行代码测试等操作,则必须根据要存储/解析的字段进行定制。
对于用于数据库性能基准测试的数据集,您可能需要查看一个可以为您生成数据的工具。Red Gate有一个很好的工具,价格不太高。
http://Quandl.com有超过1000万个数据集,从互联网上搜集而来。这个资源的好处在于它提供了一个统一的访问所有数据的方式。该网站有免费的Excel插件,也可以使用R、Python、Ruby等库。
我很惊讶没有人提到Google N-Grams。更多关于N-Grams的信息请参见http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html。