用于构建信息检索系统的免费数据集:(查询,文档,相关性)。

3
我有兴趣寻找与“英语相关性判定文件列表”类似的数据集: http://trec.nist.gov/data/qrels_eng 该数据集包含经过标记的查询和文档对。但是,它依赖于一个非免费的语料库,称为“数据 - 英文文档”: http://trec.nist.gov/data/docs_eng.html 你知道类似这个的任何免费数据集吗? 顺带一提:该数据集将用于构建基于神经网络的信息检索系统的研究项目中。
1个回答

9
你在问题中混淆了几个TREC文集。ClueWeb09和trec.nist.gov/data/docs_eng.html指向的文档集都是独立的文档集。也就是说,每个文档集都有自己独特的主题(查询)和相关性判断,这些不是文档集分发的一部分。
有数十个不同的TREC文本检索测试集合。可用的集合列在TREC数据页面上(trec.nist.gov/data.html),按它们创建的TREC轨道组织。它们以这种方式组织,因为这些集合通常旨在支持该轨道设计的检索问题。
一般来说,查询和相关判断可以直接从TREC网站下载。文档集通常必须购买:文档集或者是原始来源的版权所有,必须获得许可,或者收集/分发文档集需要其他显著的费用。如果您参加TREC,您可以免费获取一些旧的TREC文档集(尽管今年不再提供此选项)。有些文档集是免费的,但大多数仍需要签署数据使用协议。基因组轨迹具有临时搜索任务,其文档集可在数据使用协议的约束下免费使用。请参见http://trec.nist.gov/data/genomics.html
格拉斯哥大学维护了一个页面,指向其他可用的测试集合,其中一些是免费的,位于http://ir.dcs.gla.ac.uk/resources/test_collections/。其中大部分是TREC之前(1992年之前)的集合,按今天的标准非常小。(“小”意味着您可能会发现论文评审人对仅在小集合上展示结果持高度怀疑态度。)

艾伦·沃赫斯,TREC项目经理,NIST


非常感谢,这正是我想要的。我已经更改了集合名称错误的问题。对我来说,我只是在寻找一些最初的语料库,这些语料库已经被引用在不同的论文中,以便测试我的方法与其他方法的差异。之后,我会使用更大的集合。再次感谢 :)。 - AHS
语义搜索和检索引擎(集合中文档的相似性搜索)的开发人员是否使用TREC数据集来验证相似性搜索算法的准确性(及相关指标)? - sAguinaga

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接