当我尝试使用 Spark 和 Scala 读取一个以竖线分隔的文件时,代码如下:
1|Consumer Goods|101|
2|Marketing|102|
我正在使用以下命令:
val part = spark.read
.format("com.databricks.spark.csv")
.option("delimiter","|")
.load("file_name")
我得到的结果是:
+---+--------------+---+----+
|_c0| _c1|_c2| _c3|
+---+--------------+---+----+
| 1|Consumer Goods|101|null|
| 2| Marketing|102|null|
+---+--------------+---+----+
由于指定了管道符作为分隔符,Spark正在读取最后一列,而该列在源文件中不存在。是否有替代方法可以获得以下结果:
+---+--------------+---+
|_c0| _c1|_c2|
+---+--------------+---+
| 1|Consumer Goods|101|
| 2| Marketing|102|
+---+--------------+---+