7得票1回答
Spark流在部署在虚拟机的独立集群中无法工作。

我用Scala编写了一个Kafka流程序,并在Spark独立集群中执行。代码在我的本地运行良好。我在Azure VM上完成了Kafka、Cassandra和Spark的设置。我已经打开了所有入站和出站端口,以避免端口阻塞。 启动Master sbin>./start-master....

7得票5回答
无法在停止的SparkContext上调用方法

当我运行以下测试时,它会抛出“无法在停止的SparkContext上调用方法”的错误。可能的问题是我使用了TestSuiteBase和流式Spark Context。在val gridEvalsRDD = ssc.sparkContext.parallelize(gridEvals)这一行,我...

7得票2回答
非时间戳列上的Spark Structured Streaming窗口

I am getting a data stream of the form: +--+---------+---+----+ |id|timestamp|val|xxx | +--+---------+---+----+ |1 |12:15:25 | 50| 1 | |2 |12:15:...

10得票2回答
如何在Spark Streaming中从Kafka主题的开头读取记录?

我尝试使用 Spark Streaming 从 Kafka 主题中读取记录。 这是我的代码:object KafkaConsumer { import ApplicationContext._ def main(args: Array[String]) = { val ...

11得票2回答
Spark流处理中的SQL查询

这是在Spark Streaming上运行简单SQL查询的代码。import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.StreamingContext._ ...

13得票1回答
如何在Amazon EMR上找到Spark主节点URL

我是Spark的新手,正在尝试在Amazon集群上安装版本为1.3.1的Spark。当我执行以下操作时:SparkConf sparkConfig = new SparkConf().setAppName("SparkSQLTest").setMaster("local[2]"); 它对我有效...

11得票3回答
Spark:查找具有至少n个共同属性的成对数据?

我有一个数据集,由 (sensor_id, timestamp, data) 组成(其中 sensor_id 是物联网设备的 ID,timestamp 是 UNIX 时间戳,data 是该时间点输出的 MD5 哈希值)。表上没有主键,但每行都是唯一的。 我需要找到所有的传感器对 s1 和 s...

8得票3回答
Spark Streaming中的窗口是什么?

在Spark Streaming中,我们接收到的DStreams是一批RDD。那么窗口操作如何进一步帮助呢? 据我了解,它也会对RDD进行分批处理。 如果我理解有误,请纠正(我是Spark Streaming的新手)。

7得票1回答
在Spark批处理作业中读取Kafka主题

我正在编写一个 Spark (v1.6.0) 批处理作业,用于从 Kafka 主题中读取数据。 我可以使用 org.apache.spark.streaming.kafka.KafkaUtils#createRDD,但是我需要为所有分区设置偏移量,并且还需要将它们存储在某个地方(ZK?HDFS...

17得票1回答
Kafka主题分区到Spark流处理

我有一些使用案例需要更加明确,关于Kafka主题分区 -> Spark流资源利用。 我使用Spark独立模式,因此我只有"执行器总数"和"执行器内存"这两个设置。据我所知并根据文档,在Spark流中引入并行性的方法是使用分区的Kafka主题 -> RDD将具有与Kafka相同数量...