Cassandra、Hadoop Hive或MYSQL？

Question

Cassandra、Hadoop Hive或MYSQL？

3

我正在开发一个网络爬虫，用于存储数据。Cassandra、Hadoop Hive或MySQL哪个更好？为什么？我已经从过去的6个月中获得了1TB的数据，存储在我的MySQL数据库中，我需要对它们进行索引，并尽快获取搜索结果。考虑到它将存储更多的数据，例如10 PB，因为我的爬虫工作速度很快，我需要快速进行读/写操作，并将其集成到我的PHP应用程序中。

- Jesvin

4

取决于你的需求，你没有描述清楚，所有的选项都可以考虑。 - Mchl

3个回答

0

你正在寻找一种基于内容查找文档的工具，它应该是基于倒排索引的。我认为最自然的选择应该是Lucene。

此外，这篇文章介绍了一个Hadoop-Lucene堆栈，用于查询数千兆字节的文档。

- Ken Bloom

0

这取决于您的需求。如果需要对流式数据进行实时快速分析，则使用HBASE。Cassandra最适合快速写入场景，但与HBASE相比其读取速度较慢。

Hive也是一个不错的选择。为了提高Hive性能，可以使用Impala。

- K S Nidhin

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- wlk · Accepted Answer

这取决于您的具体需求，但我认为在您的情况下，HBase将是最佳选择。
使用HBase作为网络爬虫数据库已经有很好的文档记录，并且它的使用在BigTable白皮书中有所描述。