我在使用Spark DataSet加载CSV文件时,更喜欢清晰地指定模式。但我发现有一些行不符合我的模式。一个列应该是double类型,但有些行是非数字值。是否可以轻松地从DataSet中过滤掉所有不符合我的模式的行?
val schema = StructType(StructField("col", DataTypes.DoubleType) :: Nil)
val ds = spark.read.format("csv").option("delimiter", "\t").schema(schema).load("f.csv")
f.csv:
a
1.0
我希望能够轻松地从我的数据集中过滤出"a"。谢谢!