我有一个csv文件,大小为
100*512
,我想在spark
中进一步处理它。这个文件的问题是它没有标题,即列名
。 我需要这些列名进行进一步的ETL操作,以便进行机器学习
。我在另一个文件(文本文件)中有列名。我必须将这些列名作为上述csv文件的标题。
例如:
CSV文件 :-
ab 1 23 sf 23 hjh
hs 6 89 iu 98 adf
gh 7 78 pi 54 ngj
jh 5 22 kj 78 jdk
列标题文件 :-
one,two,three,four,five, six
我想要的输出如下:
one two three four five six
ab 1 23 sf 23 hjh
hs 6 89 iu 98 adf
gh 7 78 pi 54 ngj
jh 5 22 kj 78 jdk
请建议一些方法来将列头添加到CSV文件中。(而不替换csv文件的行)。我尝试将其转换为pandas数据框,但无法获得预期的输出。