最近我开始接触 Windows Azure,但我遇到了一个问题,就是在 Block Blob 和 Page Blob 中该如何选择。目前我正在将一些文本、csv或dat文件上传到 blob 存储中,并使用我的 C# 程序进行 MapReduce 处理。我已经阅读了一篇文章,但是没有得到清晰的想...
在为 HDInsight 编写程序时,我遇到了这样的代码行:$storageAccountKey = Get-AzureRmStorageAccountKey -ResourceGroupName $resourceGroupName -Name $storageAccou...
我正在查看微软的文档: https://learn.microsoft.com/en-us/azure/data-lake-store/data-lake-store-overview 我对Azure数据湖和HDInsight还不熟悉。在此URL中有一句话是这样说的:"Azure Data...
我在Azure Blob存储中保存了作为Parquet文件的数据,按年、月、日和小时进行了分区,如下所示: cont/data/year=2017/month=02/day=01/ 我想使用以下创建语句在Hive中创建外部表,我是使用此参考文档编写的。 CREATE EXTERNAL T...
我需要从提供REST接口的Web服务中读取一些JSON数据,用于我的SPARK SQL代码进行分析。我可以读取存储在Blob存储中的JSON并使用它。 我想知道从REST服务读取数据并像任何其他DataFrame一样使用的最佳方法是什么。 顺便说一下,我正在使用HD Insight上的L...
情况: 我开始了一份新工作并被分配任务,需要找出如何处理他们的传感器数据表。它有13亿行传感器数据。这些数据非常简单:基本上只有传感器ID、日期和那个时间点的传感器数值(double)。 目前,数据存储在MSSQL Server数据库中的一个表中。 到今年年底,我预计行数会增加到20-30...
我正在使用HDInsight,当运行完查询后需要删除我的集群。但是,我需要收集的数据能够在另一天得到保留。我正在处理从table1创建计算列并将它们插入到table2中的查询。首先,我想进行一个简单的测试以复制行。您可以从select语句创建外部表吗?drop table if exists ...
我正在尝试使用Azure HDInsight的Hadoop。我通过ssh登录到集群,然后运行以下命令:hadoop jar jar_name class_name wasb://container@storagename.core.windows.net/inputdir wasb://con...
我正在尝试在Azure HDInsight按需集群上运行基于Spark的应用程序,但是看到了很多SparkExceptions(由ConcurrentModificationExceptions引起)被记录。当我启动本地Spark实例时,应用程序可以运行而没有这些错误。 我看到有类似的报告在...
我们在Azure中运行了HDInsight集群,但是它不允许在群集创建时启动边缘/网关节点。因此,我通过安装来创建此边缘/网关节点 echo 'deb http://private-repo-1.hortonworks.com/HDP/ubuntu14/2.x/updates/2.4.2.0...