分布式替代Hadoop

6
我有一个好奇的问题。
有没有一些分布式和可扩展的替代hadoop的选项。我在寻找像HDFS这样的分布式文件系统,可以作为廉价有效的存储,并希望在其上具有数据处理引擎(批处理/实时)。我知道Spark可能是一个很好的替代方案。但是我想使用这个系统作为分布式、容错和可扩展的文件档案。是否有恰当的解决方案?欢迎提出建议。谢谢 :)
2个回答

6

谢谢您的回复 :) 除了那篇文章中提到的,还有其他的选择吗?基本上,我需要一个分布式、容错性强和可扩展的文件存档。 - Sachin
1
请看一下Sphere和Riak。 - Frank Odoom
@FrakOdoom 集群 Map Reduce 不符合要求,因为它是一种算法而不是文件系统。Apache Spark 在内存中运行,但出于持久化原因会刷新到 HDFS。 - P.M

2
如果您仍在寻找替代方案,这篇Gigaom文章或许可以帮到您: https://gigaom.com/2012/07/11/because-hadoop-isnt-perfect-8-ways-to-replace-hdfs/ Spark默认会刷新到HDFS。
因为HDFS是Google FS(Google分布式文件系统)的开源替代品,您可以使用连接器来连接Google FS(通过Google Cloud平台存储服务获得),但是有一个问题:在节点/集群之间传输大量数据非常昂贵。Hadoop不是为实时数据而设计的,而是为规模较小的数据。希望这能在某种程度上帮助到您。 以上所有链接都是我分享的Gigaom文章。 希望这能在某种程度上帮助到您。

谢谢!但我目前不打算研究这个! - Sachin
P.M关于MapR-FS的说法 "...但底层文件系统是HDFS" 是不正确的。MapR-FS是一个分布式、高可用的文件系统,其实现并不基于HDFS。MapR-FS有自己的实现方式和磁盘数据组织方式。但是,MapR-FS可以使用HDFS API进行访问,这意味着你不仅可以像任何分布式存储一样使用MapR-FS,还可以在其上运行Hadoop应用程序。 - Tug Grall

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接