最新 'spark-streaming' 问题

关联标签

7得票1回答

在Spark批处理作业中读取Kafka主题

我正在编写一个 Spark (v1.6.0) 批处理作业，用于从 Kafka 主题中读取数据。我可以使用 org.apache.spark.streaming.kafka.KafkaUtils#createRDD，但是我需要为所有分区设置偏移量，并且还需要将它们存储在某个地方（ZK？HDFS...

scalaapache-sparkapache-kafkaspark-streamingkafka-consumer-api

11得票1回答

Spark Dataframe指定Schema后返回NULL

我正在将JavaRDD（其中字符串是JSON字符串）转换为数据框并显示它。我正在执行类似以下的操作：public void call(JavaRDD<String> rdd, Time time) throws Exception { if (rdd.co...

javaapache-sparkapache-spark-sqlspark-streaming

7得票2回答

Yarn：文件缓存和用户缓存的自动清理

我们正在使用yarn作为资源管理器运行一个spark流处理任务，发现数据节点上这两个目录的空间被占满，即使只运行几分钟也会出现空间不足的情况。 /tmp/hadoop/data/nm-local-dir/filecache /tmp/hadoop/data/nm-local-dir/fil...

hadoopspark-streaminghadoop-yarn

7得票2回答

如何在Yarn上配置应用程序驱动程序的自动重启

来自Spark编程指南为了自动恢复驱动程序故障，用于运行流处理应用程序的部署基础设施必须监视驱动程序进程，并在其出现故障时重新启动驱动程序。不同的集群管理器有不同的工具来实现这一点。 Spark Standalone Spark Standalone - Spark应用程序驱动程序可...

apache-sparkhadoop-yarnspark-streaming

7得票2回答

SBT无法导入Kafka编解码器类。

项目设置： 1个生产者-将对象序列化并发送字节到Kafka 1个Spark消费者-应使用kafka.serializer包中的DefaultDecoder来消耗字节问题： SBT正确导入库（kafka-clients + kafka_2.10），但无法在kafka_2.10 ja...

apache-sparksbtapache-kafkaspark-streamingkafka-consumer-api

19得票3回答

当数据源运行完毕时如何停止Spark Streaming

我有一个Spark流任务，每5秒从Kafka读取数据，对传入的数据进行一些转换，然后写入文件系统。这个任务实际上不需要是流式任务，而且我只想每天运行一次它，以便将消息排入文件系统。但我不确定如何停止它。如果我将超时时间传递给streamingContext.awaitTerminati...

pythonapache-sparkapache-kafkapysparkspark-streaming

10得票7回答

如何将Spark Streaming数据转换为Spark DataFrame

到目前为止，Spark还没有为流数据创建DataFrame。但是，在进行异常检测时，使用DataFrame进行数据分析更加方便快捷。我已经完成了这部分工作，但是在尝试使用流数据进行实时异常检测时，出现了问题。我尝试了几种方法，仍然无法将DStream转换为DataFrame，也无法将DStre...

pythonpysparkspark-streaming

7得票1回答

长时间运行的流应用程序出现"java.io.IOException: Class not found"错误

我在长时间运行的Spark Streaming应用程序中遇到了以下异常。这个异常可能会在几分钟后发生，但也可能几天都不会发生。输入数据相当一致。我看过这个Jira票，但我认为它不是同一个问题。那是java.lang.IllegalArgumentException，而这是java.i...

apache-sparkspark-streaming

10得票2回答

在集群模式下使用spark-submit共享配置文件

在开发期间，我一直在以"client"模式运行我的Spark作业。我使用"--file"与执行器共享配置文件。驱动程序是在本地读取配置文件的。现在我想在"cluster"模式下部署作业，但我现在难以与驱动程序共享配置文件。例如，我将配置文件名作为extraJavaOptions传递给驱动程...

apache-sparkspark-streaminghadoop-yarn

14得票5回答

Spark Streaming + Kafka: Spark异常：无法找到Set的Leader Offsets

我正在尝试设置Spark Streaming来获取Kafka队列中的消息。我遇到了以下错误： py4j.protocol.Py4JJavaError: An error occurred while calling o30.createDirectStream. : org.apache.s...

apache-sparkapache-kafkaspark-streaming