我在HDFS中有100个Excel(*.xlsx)文件。这100个*.xlsx文件分成10个目录,如下所示:
/user/cloudera/raw_data/dataPoint1/dataPoint.xlsx
/user/cloudera/raw_data/dataPoint2/dataPoint.xlsx
...
..
.
/user/cloudera/raw_data/dataPoint10/dataPoint.xlsx
使用以下方式之一,从上面的*.xlsx文件中读取:
rawData = sc.textFile("/user/cloudera/raw_data/dataPoint1/dataPoint.xlsx")
抛出了无意义的数据!
我收到了一个明显的建议,就是使用Gnumeric电子表格应用程序的命令行实用程序ssconvert:
$ ssconvert dataPoint.xlsx dataPoint.csv
然后将其转储到HDFS中,这样我就可以直接读取*.csv文件。但这不是我要解决的问题或需求。
最好使用Python和Java的解决方案(优先考虑Python)。我是新手,所以详细的步骤说明会非常有帮助。
提前感谢。