哪里可以下载免费的文本数据集?该数据集需要包含大量文本内容。

3
我想进行一些轻量级的全文搜索测试和基准测试,因此数据集应具有以下特点:
  • 10,000至100,000条记录。
  • 英文单词分散良好。
  • 以CSV或Excel格式提供 - 也就是说,我不想通过API访问它。

像书籍或电影之类带有标题和描述字段的东西将是完美的。我浏览了UCI机器学习存储库,但它过于数值化。

3个回答


1

1

使用古腾堡计划。您可以访问数千本纯文本的英语书籍。这是我曾经使用过并感到满意的。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接