我想使用 pyspark 将 Kafka (0.10.0.2.5) 作为结构化流的源,版本为 Apache Spark 2.1。
在 Kafka 主题中,我有 JSON 消息(使用 Streamsets Data Collector 推送)。 但是,我无法使用以下代码读取它:
kafka=spark.readStream.format("kafka") \
.option("kafka.bootstrap.servers","localhost:6667") \
.option("subscribe","mytopic").load()
msg=kafka.selectExpr("CAST(value AS STRING)")
disp=msg.writeStream.outputMode("append").format("console").start()
它会生成这个错误:
java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/ByteArrayDeserializer
我尝试在readStream行添加:
.option("value.serializer","org.common.serialization.StringSerializer")
.option("key.serializer","org.common.serialization.StringSerializer")
但这并没有解决问题。 有什么想法吗?谢谢您的帮助。
org.apache.kafka.common.serialization.StringDeserializer
作为键和值反序列化器。 - Akash Sethihttps://github.com/akashsethi24/Spark-Kafka-Stream-Example/blob/master/src/main/scala/KafkaConsumer.scala
- Akash Sethi