我们有一个Spark Streaming应用程序,它从接收器的Kafka队列中读取数据并执行一些转换,最后输出到HDFS。批处理间隔为1分钟,我们已经调整了背压和`spark.streaming.receiver.maxRate`参数,因此大部分时间都可以正常工作。
但是我们仍然有一个问题。当HDFS完全崩溃时,批处理作业将会挂起很长时间(假设HDFS不工作4小时,则作业将挂起4小时),但是接收器并不知道作业没有完成,因此它仍在接收下一个4小时的数据。这会导致OOM异常,整个应用程序宕机,我们丢失了很多数据。
所以我的问题是:是否有可能让接收器知道作业没有完成,因此它会接收更少(甚至没有)数据,并在作业完成后开始接收更多数据进行赶上。在上述情况下,当HDFS崩溃时,接收器将从Kafka读取较少的数据,生成的阻塞非常小,接收器和整个应用程序不会崩溃,在HDFS恢复正常后,接收器将读取更多数据并开始赶上。
但是我们仍然有一个问题。当HDFS完全崩溃时,批处理作业将会挂起很长时间(假设HDFS不工作4小时,则作业将挂起4小时),但是接收器并不知道作业没有完成,因此它仍在接收下一个4小时的数据。这会导致OOM异常,整个应用程序宕机,我们丢失了很多数据。
所以我的问题是:是否有可能让接收器知道作业没有完成,因此它会接收更少(甚至没有)数据,并在作业完成后开始接收更多数据进行赶上。在上述情况下,当HDFS崩溃时,接收器将从Kafka读取较少的数据,生成的阻塞非常小,接收器和整个应用程序不会崩溃,在HDFS恢复正常后,接收器将读取更多数据并开始赶上。