最新 'spark-streaming' 问题 - 第2页

关联标签

7得票1回答

Spark流在部署在虚拟机的独立集群中无法工作。

我用Scala编写了一个Kafka流程序，并在Spark独立集群中执行。代码在我的本地运行良好。我在Azure VM上完成了Kafka、Cassandra和Spark的设置。我已经打开了所有入站和出站端口，以避免端口阻塞。启动Master sbin>./start-master....

scalaapache-sparkstreamingspark-streamingscala-streams

7得票5回答

无法在停止的SparkContext上调用方法

当我运行以下测试时，它会抛出“无法在停止的SparkContext上调用方法”的错误。可能的问题是我使用了TestSuiteBase和流式Spark Context。在val gridEvalsRDD = ssc.sparkContext.parallelize(gridEvals)这一行，我...

scalaapache-sparkspark-streaming

7得票2回答

非时间戳列上的Spark Structured Streaming窗口

I am getting a data stream of the form: +--+---------+---+----+ |id|timestamp|val|xxx | +--+---------+---+----+ |1 |12:15:25 | 50| 1 | |2 |12:15:...

scalaapache-sparkspark-streamingaggregate-functionsspark-structured-streaming

10得票2回答

如何在Spark Streaming中从Kafka主题的开头读取记录？

我尝试使用 Spark Streaming 从 Kafka 主题中读取记录。这是我的代码：object KafkaConsumer { import ApplicationContext._ def main(args: Array[String]) = { val ...

scalaapache-sparkapache-kafkaspark-streaming

11得票2回答

Spark流处理中的SQL查询

这是在Spark Streaming上运行简单SQL查询的代码。import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.StreamingContext._ ...

apache-sparkspark-streaming

13得票1回答

如何在Amazon EMR上找到Spark主节点URL

我是Spark的新手，正在尝试在Amazon集群上安装版本为1.3.1的Spark。当我执行以下操作时：SparkConf sparkConfig = new SparkConf().setAppName("SparkSQLTest").setMaster("local[2]"); 它对我有效...

apache-sparkspark-streamingamazon-emr

11得票3回答

Spark：查找具有至少n个共同属性的成对数据？

我有一个数据集，由 (sensor_id, timestamp, data) 组成（其中 sensor_id 是物联网设备的 ID，timestamp 是 UNIX 时间戳，data 是该时间点输出的 MD5 哈希值）。表上没有主键，但每行都是唯一的。我需要找到所有的传感器对 s1 和 s...

algorithmapache-sparkspark-streamingapache-spark-sql

8得票3回答

Spark Streaming中的窗口是什么？

在Spark Streaming中，我们接收到的DStreams是一批RDD。那么窗口操作如何进一步帮助呢？据我了解，它也会对RDD进行分批处理。如果我理解有误，请纠正（我是Spark Streaming的新手）。

apache-sparkspark-streaming

7得票1回答

在Spark批处理作业中读取Kafka主题

我正在编写一个 Spark (v1.6.0) 批处理作业，用于从 Kafka 主题中读取数据。我可以使用 org.apache.spark.streaming.kafka.KafkaUtils#createRDD，但是我需要为所有分区设置偏移量，并且还需要将它们存储在某个地方（ZK？HDFS...

scalaapache-sparkapache-kafkaspark-streamingkafka-consumer-api

17得票1回答

Kafka主题分区到Spark流处理

我有一些使用案例需要更加明确，关于Kafka主题分区 -> Spark流资源利用。我使用Spark独立模式，因此我只有"执行器总数"和"执行器内存"这两个设置。据我所知并根据文档，在Spark流中引入并行性的方法是使用分区的Kafka主题 -> RDD将具有与Kafka相同数量...

apache-sparkapache-kafkaspark-streaming