我们之前一直在使用Spark Streaming和Kafka,使用的是KafkaUtils中的createStream方法。最近开始尝试使用createDirectStream方法,并且喜欢它的两个优点:
1) 更好/更容易实现“确切一次”语义
2) 更好地将kafka主题分区与rdd分区相关联
我注意到createDirectStream被标记为实验性的。我的问题是(如果不太具体请见谅):
如果确切一次非常重要,我们应该尝试使用createDirectStream方法吗?如果你们能分享你们的经验,那就太棒了。我们是否会冒着处理其他问题(如可靠性等)的风险?
1) 更好/更容易实现“确切一次”语义
2) 更好地将kafka主题分区与rdd分区相关联
我注意到createDirectStream被标记为实验性的。我的问题是(如果不太具体请见谅):
如果确切一次非常重要,我们应该尝试使用createDirectStream方法吗?如果你们能分享你们的经验,那就太棒了。我们是否会冒着处理其他问题(如可靠性等)的风险?