7得票1回答
在Spark批处理作业中读取Kafka主题

我正在编写一个 Spark (v1.6.0) 批处理作业,用于从 Kafka 主题中读取数据。 我可以使用 org.apache.spark.streaming.kafka.KafkaUtils#createRDD,但是我需要为所有分区设置偏移量,并且还需要将它们存储在某个地方(ZK?HDFS...

11得票1回答
Spark Dataframe指定Schema后返回NULL

我正在将JavaRDD(其中字符串是JSON字符串)转换为数据框并显示它。 我正在执行类似以下的操作:public void call(JavaRDD<String> rdd, Time time) throws Exception { if (rdd.co...

7得票2回答
Yarn:文件缓存和用户缓存的自动清理

我们正在使用yarn作为资源管理器运行一个spark流处理任务,发现数据节点上这两个目录的空间被占满,即使只运行几分钟也会出现空间不足的情况。 /tmp/hadoop/data/nm-local-dir/filecache /tmp/hadoop/data/nm-local-dir/fil...

7得票2回答
如何在Yarn上配置应用程序驱动程序的自动重启

来自Spark编程指南 为了自动恢复驱动程序故障,用于运行流处理应用程序的部署基础设施必须监视驱动程序进程,并在其出现故障时重新启动驱动程序。不同的集群管理器有不同的工具来实现这一点。 Spark Standalone Spark Standalone - Spark应用程序驱动程序可...

7得票2回答
SBT无法导入Kafka编解码器类。

项目设置: 1个生产者-将对象序列化并发送字节到Kafka 1个Spark消费者-应使用kafka.serializer包中的DefaultDecoder来消耗字节 问题: SBT正确导入库(kafka-clients + kafka_2.10),但无法在kafka_2.10 ja...

19得票3回答
当数据源运行完毕时如何停止Spark Streaming

我有一个Spark流任务,每5秒从Kafka读取数据,对传入的数据进行一些转换,然后写入文件系统。 这个任务实际上不需要是流式任务,而且我只想每天运行一次它,以便将消息排入文件系统。但我不确定如何停止它。 如果我将超时时间传递给streamingContext.awaitTerminati...

10得票7回答
如何将Spark Streaming数据转换为Spark DataFrame

到目前为止,Spark还没有为流数据创建DataFrame。但是,在进行异常检测时,使用DataFrame进行数据分析更加方便快捷。我已经完成了这部分工作,但是在尝试使用流数据进行实时异常检测时,出现了问题。我尝试了几种方法,仍然无法将DStream转换为DataFrame,也无法将DStre...

7得票1回答
长时间运行的流应用程序出现"java.io.IOException: Class not found"错误

我在长时间运行的Spark Streaming应用程序中遇到了以下异常。 这个异常可能会在几分钟后发生,但也可能几天都不会发生。 输入数据相当一致。 我看过这个Jira票,但我认为它不是同一个问题。 那是java.lang.IllegalArgumentException,而这是java.i...

10得票2回答
在集群模式下使用spark-submit共享配置文件

在开发期间,我一直在以"client"模式运行我的Spark作业。我使用"--file"与执行器共享配置文件。驱动程序是在本地读取配置文件的。现在我想在"cluster"模式下部署作业,但我现在难以与驱动程序共享配置文件。 例如,我将配置文件名作为extraJavaOptions传递给驱动程...

14得票5回答
Spark Streaming + Kafka: Spark异常:无法找到Set的Leader Offsets

我正在尝试设置Spark Streaming来获取Kafka队列中的消息。我遇到了以下错误: py4j.protocol.Py4JJavaError: An error occurred while calling o30.createDirectStream. : org.apache.s...