我正在处理Kafka流数据,并尝试将其与Apache Spark集成。但是,在运行时我遇到了问题。我收到以下错误。
这是我正在使用的命令。
df_TR = Spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option("subscribe", "taxirides").load()
错误:
Py4JJavaError: 调用o77.load()时发生错误:java.lang.ClassNotFoundException: 找不到数据源:kafka。请在http://spark.apache.org/third-party-projects.html中查找软件包。
我该如何解决这个问题?
注意:我在Jupyter Notebook中运行此操作。
这是我正在使用的命令。
df_TR = Spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option("subscribe", "taxirides").load()
错误:
Py4JJavaError: 调用o77.load()时发生错误:java.lang.ClassNotFoundException: 找不到数据源:kafka。请在http://spark.apache.org/third-party-projects.html中查找软件包。
我该如何解决这个问题?
注意:我在Jupyter Notebook中运行此操作。
findspark.init('/home/karan/spark-2.1.0-bin-hadoop2.7')
import pyspark
from pyspark.sql import SparkSession
Spark = SparkSession.builder.appName('KafkaStreaming').getOrCreate()
from pyspark.sql.types import *
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
到这里为止一切正常(上面的代码)。
df_TR = Spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option("subscribe", "taxirides").load()
这是出问题的地方(上面的代码)。
我正在遵循的博客链接:https://www.adaltas.com/en/2019/04/18/spark-streaming-data-pipelines-with-structured-streaming/