我目前正在研究在我正在进行的项目中使用哪个数据库。希望你们能给我一些提示。
该项目是一个自动化网络爬虫,根据用户的请求检查网站,在某些情况下抓取数据,并创建日志文件记录所做的工作。
要求:
- 只有少量的表格和列;预定义列不是问题
- 模型之间没有过于复杂的关联
- 大量基于日期和时间的查询
- 由于日志记录,数据库将快速增长并占用大量空间
- 应该能够在多个服务器上扩展
- 字段主要包含id(int)、字符串(最多约200-500个字符)和unix时间戳
- 两种不同类型的服务器将同时从中直接读写数据:
- 一个(稍后可能会有更多)Rails应用程序,负责接收用户输入并在请求时显示结果
- 一个(稍后可能会有更多)Node.js服务器,作为执行爬虫/抓取器的功能。它将拥有足够的负载运行,并每秒进行数十次数据库查询。
我假设它既不是图形数据库(没有复杂的关联),也不是基于内存的键/值存储(缓存中保存太多数据)。对于我能找到的其他任何类型的数据库,我仍然摇摆不定,每种数据库似乎都有其优点。
那么,有没有专业人士能给我建议,我应该如何决定呢?