我正在开发一个网络爬虫,用于存储数据。Cassandra、Hadoop Hive或MySQL哪个更好?为什么?我已经从过去的6个月中获得了1TB的数据,存储在我的MySQL数据库中,我需要对它们进行索引,并尽快获取搜索结果。考虑到它将存储更多的数据,例如10 PB,因为我的爬虫工作速度很快,我需要快速进行读/写操作,并将其集成到我的PHP应用程序中。
这取决于您的需求。如果需要对流式数据进行实时快速分析,则使用HBASE。Cassandra最适合快速写入场景,但与HBASE相比其读取速度较慢。 Hive也是一个不错的选择。为了提高Hive性能,可以使用Impala。