90得票6回答
Azure块Blob和页Blob之间的区别是什么?

最近我开始接触 Windows Azure,但我遇到了一个问题,就是在 Block Blob 和 Page Blob 中该如何选择。目前我正在将一些文本、csv或dat文件上传到 blob 存储中,并使用我的 C# 程序进行 MapReduce 处理。我已经阅读了一篇文章,但是没有得到清晰的想...

19得票2回答
“%{ $_.Key1 }”是什么意思?(涉及IT技术)

在为 HDInsight 编写程序时,我遇到了这样的代码行:$storageAccountKey = Get-AzureRmStorageAccountKey -ResourceGroupName $resourceGroupName -Name $storageAccou...

14得票5回答
Azure数据湖与Azure HDInsight比较

我正在查看微软的文档: https://learn.microsoft.com/en-us/azure/data-lake-store/data-lake-store-overview 我对Azure数据湖和HDInsight还不熟悉。在此URL中有一句话是这样说的:"Azure Data...

14得票1回答
在Azure HDInsights中从分区的Parquet文件创建Hive外部表

我在Azure Blob存储中保存了作为Parquet文件的数据,按年、月、日和小时进行了分区,如下所示: cont/data/year=2017/month=02/day=01/ 我想使用以下创建语句在Hive中创建外部表,我是使用此参考文档编写的。 CREATE EXTERNAL T...

13得票3回答
Spark SQL:如何将来自REST服务的JSON数据作为DataFrame消耗

我需要从提供REST接口的Web服务中读取一些JSON数据,用于我的SPARK SQL代码进行分析。我可以读取存储在Blob存储中的JSON并使用它。 我想知道从REST服务读取数据并像任何其他DataFrame一样使用的最佳方法是什么。 顺便说一下,我正在使用HD Insight上的L...

11得票3回答
如何高效地存储和查询十亿行传感器数据

情况: 我开始了一份新工作并被分配任务,需要找出如何处理他们的传感器数据表。它有13亿行传感器数据。这些数据非常简单:基本上只有传感器ID、日期和那个时间点的传感器数值(double)。 目前,数据存储在MSSQL Server数据库中的一个表中。 到今年年底,我预计行数会增加到20-30...

11得票3回答
从其他表选择并创建外部表

我正在使用HDInsight,当运行完查询后需要删除我的集群。但是,我需要收集的数据能够在另一天得到保留。我正在处理从table1创建计算列并将它们插入到table2中的查询。首先,我想进行一个简单的测试以复制行。您可以从select语句创建外部表吗?drop table if exists ...

11得票4回答
Azure异常:无法使用匿名凭据访问容器,并且配置中没有找到它们的凭据。

我正在尝试使用Azure HDInsight的Hadoop。我通过ssh登录到集群,然后运行以下命令:hadoop jar jar_name class_name wasb://container@storagename.core.windows.net/inputdir wasb://con...

10得票2回答
使用Spark集合累加器时出现ConcurrentModificationException

我正在尝试在Azure HDInsight按需集群上运行基于Spark的应用程序,但是看到了很多SparkExceptions(由ConcurrentModificationExceptions引起)被记录。当我启动本地Spark实例时,应用程序可以运行而没有这些错误。 我看到有类似的报告在...

9得票2回答
Spark-Shell错误:方案没有文件系统:wasb。

我们在Azure中运行了HDInsight集群,但是它不允许在群集创建时启动边缘/网关节点。因此,我通过安装来创建此边缘/网关节点 echo 'deb http://private-repo-1.hortonworks.com/HDP/ubuntu14/2.x/updates/2.4.2.0...