我正在阅读这篇博客文章:http://blog.jaceklaskowski.pl/2015/07/20/real-time-data-processing-using-apache-kafka-and-spark-streaming.html,它讨论了使用Spark Streaming和Apache Kafka进行准实时处理的方法。我完全理解这篇文章。它展示了如何使用Spark Streaming从Topic中读取消息。那么,是否有一个Spark Streaming API可以用于将消息写入Kakfa topic呢?
我的用例非常简单。我有一组数据可以按恒定间隔(例如每秒)从给定来源读取。我使用响应式流实现这一点。我想使用Spark对这些数据进行一些分析。我希望具有容错性,因此需要使用Kafka。因此,我要执行以下操作(如果我理解错误请纠正我):
1. 使用响应式流从外部源获取数据。 2. 将结果导入Kafka Topic。 3. 使用Spark Streaming为消费者创建流上下文。 4. 对已消费的数据执行分析。
还有一个问题,Spark中的Streaming API是响应式流规范的实现吗?它是否具有反压处理(Spark Streaming v1.5)?
我的用例非常简单。我有一组数据可以按恒定间隔(例如每秒)从给定来源读取。我使用响应式流实现这一点。我想使用Spark对这些数据进行一些分析。我希望具有容错性,因此需要使用Kafka。因此,我要执行以下操作(如果我理解错误请纠正我):
1. 使用响应式流从外部源获取数据。 2. 将结果导入Kafka Topic。 3. 使用Spark Streaming为消费者创建流上下文。 4. 对已消费的数据执行分析。
还有一个问题,Spark中的Streaming API是响应式流规范的实现吗?它是否具有反压处理(Spark Streaming v1.5)?