Cassandra、Hadoop Hive或MYSQL?

3

我正在开发一个网络爬虫,用于存储数据。Cassandra、Hadoop Hive或MySQL哪个更好?为什么?我已经从过去的6个月中获得了1TB的数据,存储在我的MySQL数据库中,我需要对它们进行索引,并尽快获取搜索结果。考虑到它将存储更多的数据,例如10 PB,因为我的爬虫工作速度很快,我需要快速进行读/写操作,并将其集成到我的PHP应用程序中。


4
取决于你的需求,你没有描述清楚,所有的选项都可以考虑。 - Mchl
3个回答

3

这取决于您的具体需求,但我认为在您的情况下,HBase将是最佳选择。
使用HBase作为网络爬虫数据库已经有很好的文档记录,并且它的使用在BigTable白皮书中有所描述。


0

你正在寻找一种基于内容查找文档的工具,它应该是基于倒排索引的。我认为最自然的选择应该是Lucene

此外,这篇文章介绍了一个Hadoop-Lucene堆栈,用于查询数千兆字节的文档。


0

这取决于您的需求。如果需要对流式数据进行实时快速分析,则使用HBASE。Cassandra最适合快速写入场景,但与HBASE相比其读取速度较慢。

Hive也是一个不错的选择。为了提高Hive性能,可以使用Impala。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接