我想进行一些轻量级的全文搜索测试和基准测试,因此数据集应具有以下特点:
- 10,000至100,000条记录。
- 英文单词分散良好。
- 以CSV或Excel格式提供 - 也就是说,我不想通过API访问它。
像书籍或电影之类带有标题和描述字段的东西将是完美的。我浏览了UCI机器学习存储库,但它过于数值化。
如果您找不到一个,可以使用LOREM IPSUM生成器创建一个
您还可以获取完整的StackOverflow数据转储
https://blog.stackoverflow.com/2009/06/stack-overflow-creative-commons-data-dump/