我有两个 CSV 文件,正在使用 Java 中的 Spark 聚合它们。这些文件具有不同的分隔符。
file1.dat:
我使用的代码是:
如果我移除一个分隔符:
有没有一种方法可以执行这个操作? 这两个文件可以在同一个Spark代码中聚合吗?
file1.dat:
011!345!Ireland
files2.dat:
022Ç486ÇBrazil
我使用的代码是:
Dataset<Row> people = spark.read().format("csv").option("header", "false").option("delimeter", "\u00C7").option("delimeter", "!").load(logFile);
输出:
Error:Cannot resolve column name
如果我移除一个分隔符:
Dataset<Row> people = spark.read().format("csv").option("header", "false").option("delimeter", "\u00C7").load(logFile);
输出:
Sno|code|Country
null|null|null
022|486|Brazil
有没有一种方法可以执行这个操作? 这两个文件可以在同一个Spark代码中聚合吗?
DataSet<Row>
只是一个DataFrame
。 - OneCricketeer