我正在尝试读取一个以UTF-16编码的CSV文件。
val test = spark.read
.format("com.databricks.spark.csv")
.option("header", "true")
.option("inferSchema", "true")
.option("delimiter",";")
.option("dateFormat", "yyyy-MM-dd HH:mm:ss.SSS")
.option("encoding", "UTF-16")
.option("charset", "ISO-8859-1")
.load("...")
因此,我得到了额外的行:
Spark是否只能使用UTF-8编码?或者有其他方法将UTF-16 CSV读入数据框架中吗?
iconv -f UTF-16 -t UTF-8 com.databricks.spark.csv >> com.databricks.spark.csv.utf8.csv
。UTF-8支持所有可能的UNICODE字符,包括1-4个字节。 - Victor Gubin