37得票8回答
如何将Spark Streaming数据框写入Kafka主题

我正在使用Spark Streaming在两个Kafka队列之间处理数据,但似乎找不到一个好的方法从Spark向Kafka写入数据。我尝试过以下内容:input.foreachRDD(rdd => rdd.foreachPartition(partition => pa...

13得票1回答
Spark流式处理 + Kafka 与仅使用Kafka的比较

为什么以及何时使用Spark流处理和Kafka? 假设我有一个系统通过Kafka每秒获取一千条消息。我需要对这些消息应用一些实时分析,并将结果存储在数据库中。 我有两个选择: 创建自己的worker,从Kafka读取消息,运行分析算法并将结果存储在数据库中。在容器化时代,可以通过扩展命...

12得票6回答
Kafka生产者 - 找不到org.apache.kafka.common.serialization.StringSerializer

我正在创建一个简单的Kafka生产者和消费者。我正在使用kafka_2.11-0.9.0.0。这是我的生产者代码。public class KafkaProducerTest { public static String topicName = "test-topic-2"; public s...

10得票1回答
无法找到LoginModule类: org.apache.kafka.common.security.plain.PlainLoginModule

环境: Spark 2.3.0, Scala 2.11.12, Kafka (最新版本) 我有一个安全的Kafka系统,我正在尝试将我的Spark Streaming Consumer连接到它。以下是我的build.sbt文件: name := "kafka-streaming" vers...

9得票2回答
Spark结构化流与Kafka结合使用时,不遵循startingOffset="earliest"的设置。

我已经设置好了Spark Structured Streaming(Spark 2.3.2)来从Kafka(2.0.0)中读取。如果消息在启动Spark流式作业之前进入主题,则无法从主题的开头进行消费。这是否是Spark Stream忽略在初始化运行Spark Stream作业之前生成的Kaf...

8得票1回答
Pyspark无法找到数据源:kafka。

我正在处理Kafka流数据,并尝试将其与Apache Spark集成。但是,在运行时我遇到了问题。我收到以下错误。 这是我正在使用的命令。 df_TR = Spark.readStream.format("kafka").option("kafka.bootstrap.servers", ...

7得票2回答
增加Kafka Streams消费者吞吐量

我有一个 Spark Streaming 应用程序和一个 Kafka Streams 应用程序并行运行,用于基准测试。两者都从相同的输入主题消费并写入不同的目标数据库。输入主题有15个分区,Spark Streaming 和 Kafka Streams 都有15个消费者(1:1比例)。此外,事...

7得票3回答
提供程序org.apache.spark.sql.avro.AvroFileFormat无法实例化。

无法从Spark Streaming应用程序向Kafka主题发送avro格式消息。关于Avro Spark Streaming示例代码的信息非常少。 "to_avro"方法不需要Avro模式,那么它将如何编码为Avro格式? 请问有人能帮忙解决以下异常吗? 依赖项: <depend...