我对Spark、Hive、大数据和Scala等内容非常陌生,现在我需要编写一个简单的函数来获取SQLContext并从S3加载CSV文件返回DataFrame。问题是这个CSV文件使用^A(即\001)字符作为分隔符,数据集很大,因此我不能只是在它上面执行“s/\001/,/g”命令。此外,字段中可能包含逗号或其他我可能用作分隔符的字符。
我知道我正在使用的spark-csv软件包有一个分隔符选项,但我不知道如何设置它以使其将\001视为一个字符而不是转义的0、0和1。也许我应该使用hiveContext或其他东西?
(Note: HTML tags preserved)
u
字符表示接下来的数字是一个字符的Unicode代码,而0001是该特殊字符的Unicode代码。所以它的作用就是在字符串中插入该特殊字符。 - Daniel Zolnai