11得票6回答
Spark异常:写入行时任务失败

我正在阅读文本文件并将它们转换为parquet文件。我正在使用Spark代码进行操作。但是当我尝试运行代码时,我遇到以下异常org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in stage 1....

17得票1回答
将一个大的dask dataframe保存为parquet格式是否可行?

我有一个数据框,由100,000+行组成,每行有100,000列,共计10,000,000,000个浮点值。 之前我已经成功将它们读入一个 csv(以制表符分隔)文件中,并在一台拥有250GB RAM的50核Xeon机器上成功读取并尝试将其写出为一个 .parq 目录,如下所示: huge...

31得票6回答
使用Python读取文件夹中的多个Parquet文件并将其写入单个CSV文件

我是Python的新手,我有一个场景,其中有多个带有按顺序排列的文件名的parquet文件。例如:par_file1、par_file2、par_file3等,直到文件夹中达到100个文件。 我需要按顺序读取这些parquet文件,从file1开始,并将其写入单个csv文件中。在写入file...

9得票2回答
Tensorflow数据集API:使用Parquet文件的输入管道

我正在尝试使用Dataset API设计一个输入管道。我正在处理parquet文件。有什么好的方法将它们添加到我的管道中?

9得票3回答
InternalError_: Spectrum扫描错误。S3到Redshift复制命令。

我想使用COPY命令从S3存储桶将数据复制到Redshift表中。文件格式为PARQUET。当运行执行COPY命令查询时,出现"InternalError_: Spectrum Scan Error"错误。 这是我第一次尝试从Parquet文件进行复制。 如果有解决方案,请帮助我。我正...

19得票3回答
Spark在读取Parquet文件时是否会保留分区信息?

我在寻找这个问题的答案时遇到了很多麻烦。假设我将一个数据框写入parquet文件,并使用 repartition 和 partitionBy 来得到一个良好分区的parquet文件。见下文:df.repartition(col("DATE")).write.partitionBy("DATE"...

28得票3回答
如何将数据追加到现有的Parquet文件中

我正在使用以下代码创建ParquetWriter并向其中写入记录。ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAP...

19得票3回答
如何使用Linux或HDFS命令将多个Parquet文件合并为单个Parquet文件?

我有多个小的parquet文件,这些文件是hive ql作业的输出结果,我想将这些输出文件合并成单个parquet文件。 使用一些hdfs或linux命令最好的方法是什么? 我们以前使用cat命令合并文本文件,但对于parquet文件是否也适用呢? 在写输出文件时,我们是否可以像在spar...

14得票5回答
Parquet谓词下推在非EMR环境下使用Spark对S3起作用吗?

想知道Parquet谓词下推是否也适用于S3,而不仅仅是HDFS。特别是如果我们使用Spark(非EMR)。 进一步的解释可能会有所帮助,因为这可能涉及对分布式文件系统的理解。

18得票3回答
Parquet Writer将数据缓存或转化为字节流

我有一个Java应用程序,可以将JSON消息转换为Parquet格式。是否有任何Parquet writer可以在Java中写入缓冲区或字节流?大多数示例都是写入文件。