微软Azure:集群和存储账户的区别

3
我正在学习这门课程。它要求创建一个新的hdinsight集群(选项为hadoop、hbase、storm或spark)和一个存储帐户。集群和存储帐户有什么区别?集群是否包括处理工作的处理器,存储帐户是否表示存储数据的空间?为什么不能将同一存储帐户连接到不同的集群上?
此外,在 Microsoft Azure >> New >> Data + Analytics 下,我看到 2 个选项:hdinsight、data lake analytics 用于处理大数据。这两者有什么区别?它们看起来都很相似。
HDInsight 是微软基于云的大数据服务,包括 Apache Hadoop 和其他流行的大数据解决方案。
Data Lake Analytics 简单易用的大数据分析工具。
1个回答

3

这里有很多问题,让我逐一回答。

Blob Storage与HDInsight Cluster有什么区别? Blob Storage是一个分布式文件存储,类似于HDFS,用于存储数据/视频/物品。HDInsight Cluster是创建用于在DFS(HDFS或Blob Storage)上运行Map Reduce代码的Hadoop虚拟机数量。拥有两个单独的服务可以让您独立扩展每个服务,从而节省长期的费用。数据存储便宜,但500个节点的VM集群可能会很快变得昂贵。能够杀死集群但保留数据是有帮助的。

为什么不能将同一存储帐户连接到不同的群集? 您可以将多个群集指向同一个存储帐户,但这是一种反模式。存储帐户具有数据和IO限制,如果您有多个群集针对单个存储帐户进行拉取,则更有可能遇到限制。此外,只有在其中有数据时,存储帐户才需要支付美元,因此拥有多个存储帐户不会增加成本。

Azure数据湖(ADL)和ADL存储是什么? Azure数据湖是存储和计算的另一种选择。 ADL存储可以被视为blob存储v2。您可以从blob存储中获取一些IO和文件大小限制的增加,同时仍然能够使用Hadoop进行计算。 ADL是完全不同于Hadoop的第二个计算选项。您无需担心群集创建或群集总体情况。您编写查询,指定所需的并行化程度,然后返回数据。
参考文献:

https://azure.microsoft.com/en-us/documentation/articles/azure-subscription-service-limits/#storage-limits

https://azure.microsoft.com/en-us/services/hdinsight/

https://azure.microsoft.com/en-us/solutions/data-lake/


我应该在什么情况下选择HDInsight而不是ADL? - user2543622
如果您有大量数据或预计将使用大型集群,请使用ADL存储。如果您不知道/不想学习Hadoop,请尝试使用ADL。 - Andrew Moll

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接