我有以下分区数据的文件夹 -
my_folder
|--part-0000.gzip
|--part-0001.gzip
|--part-0002.gzip
|--part-0003.gzip
我尝试使用以下方式将这些数据读取到数据框中-
>>> my_df = spark.read.csv("/path/to/my_folder/*")
>>> my_df.show(5)
+--------------------+
| _c0|
+--------------------+
|��[I���...|
|��RUu�[*Ք��g��T...|
|�t��� �qd��8~��...|
|�(���b4�:������I�...|
|���!y�)�PC��ќ\�...|
+--------------------+
only showing top 5 rows
我也尝试使用这个来检查数据 -
>>> rdd = sc.textFile("/path/to/my_folder/*")
>>> rdd.take(4)
['\x1f�\x08\x00\x00\x00\x00\x00\x00\x00�͎\\ǖ�7�~�\x04�\x16��\'��"b�\x04�AR_<G��"u��\x06��L�*�7�J�N�\'�qa��\x07\x1ey��\x0b\\�\x13\x0f\x0c\x03\x1e�Q��ڏ�\x15Y_Yde��Y$��Q�JY;s�\x1d����[��\x15k}[B\x01��ˀ�PT��\x12\x07-�\x17\x12�\x0c#\t���T۱\x01yf��\x14�S\x0bc)��\x1ex���axAO˓_\'��`+HM҈�\x12�\x17�@']
注意: 当我执行 zcat part-0000.gzip | head -1
命令来读取文件内容时,它显示数据是以制表符分隔的,并且以普通易读的英语形式呈现。
我应该如何正确地将这些文件读入数据框架中?