我正在尝试处理日志文件。首先,我读取日志文件并根据我的要求拆分这些文件,并将每个列保存到单独的JavaRDD中。现在我需要将这些JavaRDD转换为DataFrames以进行未来操作。这是我迄今为止尝试过的代码:
SparkConf conf = new SparkConf().setAppName("AuctionBid").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> diskfile = sc.textFile("/Users/karuturi/Downloads/log.txt");
JavaRDD<String> urlrdd=diskfile.flatMap(line -> Arrays.asList(line.split("\t")[0]));
System.out.println(urlrdd.take(1));
SQLContext sql = new SQLContext(sc);
这是我尝试将JavaRDD转换为DataFrame的方式:
DataFrame fileDF = sqlContext.createDataFrame(urlRDD, Model.class);
但是上面的代码行不起作用。我对Model.class感到困惑。 有人能给我建议吗? 谢谢。
SparseVector
的JavaRDD
进行转换怎么办? - Alberto Bonsanto