分布式替代Hadoop

Question

分布式替代Hadoop

hadoophdfsstoragedistributeddistributed-system

6

我有一个好奇的问题。

有没有一些分布式和可扩展的替代hadoop的选项。我在寻找像HDFS这样的分布式文件系统，可以作为廉价有效的存储，并希望在其上具有数据处理引擎（批处理/实时）。我知道Spark可能是一个很好的替代方案。但是我想使用这个系统作为分布式、容错和可扩展的文件档案。是否有恰当的解决方案？欢迎提出建议。谢谢 :)

- Sachin

2个回答

2

如果您仍在寻找替代方案，这篇Gigaom文章或许可以帮到您: https://gigaom.com/2012/07/11/because-hadoop-isnt-perfect-8-ways-to-replace-hdfs/ Spark默认会刷新到HDFS。

因为HDFS是Google FS(Google分布式文件系统)的开源替代品，您可以使用连接器来连接Google FS(通过Google Cloud平台存储服务获得)，但是有一个问题:在节点/集群之间传输大量数据非常昂贵。Hadoop不是为实时数据而设计的，而是为规模较小的数据。希望这能在某种程度上帮助到您。

MapR声称比普通的HDFS快20％(但底层FS是HDFS)https://mapr.com/why-mapr/
NetApp也有一种替代HDFS的方法http://www.netapp.com/us/solutions/applications/big-data-analytics/index.aspx

以上所有链接都是我分享的Gigaom文章。希望这能在某种程度上帮助到您。

- P.M

谢谢！但我目前不打算研究这个！ - Sachin

P.M关于MapR-FS的说法 "...但底层文件系统是HDFS" 是不正确的。MapR-FS是一个分布式、高可用的文件系统，其实现并不基于HDFS。MapR-FS有自己的实现方式和磁盘数据组织方式。但是，MapR-FS可以使用HDFS API进行访问，这意味着你不仅可以像任何分布式存储一样使用MapR-FS，还可以在其上运行Hadoop应用程序。 - Tug Grall

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Frank Odoom · Accepted Answer

以下是一些Hadoop和Apache Spark的替代方案。Cluster Map Reduce，Hydra和Conclusion都比较适合大数据项目。在这里阅读更多信息 https://datafloq.com/read/Big-Data-Hadoop-Alternatives/1135