您能否帮我弄清楚初始化Spark RDD时会发生什么?
这里有一个官方示例点击这里:
val capitals = spark.read.parquet("capitals.parquet").select("name", "country")
val luceneRDD = LuceneRDD(capitals)
val result = luceneRDD.termQuery("name", "ottawa", 10)
但是我对Scala不熟悉,阅读源代码时遇到了麻烦。请您回答以下问题:
- spark-lucenerdd如何为
capitals.parquet
创建索引? 如何为每个列的每一行(所有值)创建索引? - 我可以设置
luceneRDD
的分区数吗?
LuceneRDD
的分区数,可以在输入RDD / DataFrame / Dataset上进行,例如:val luceneRDD = LuceneRDD(capitals.repartition(10))
,表示有10个分区。 - Zouzias