最新 'parquet' 问题 - 第3页

关联标签

11得票6回答

Spark异常：写入行时任务失败

我正在阅读文本文件并将它们转换为parquet文件。我正在使用Spark代码进行操作。但是当我尝试运行代码时，我遇到以下异常org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in stage 1....

javahadoopapache-sparkapache-spark-sqlparquet

17得票1回答

将一个大的dask dataframe保存为parquet格式是否可行？

我有一个数据框，由100,000+行组成，每行有100,000列，共计10,000,000,000个浮点值。之前我已经成功将它们读入一个 csv（以制表符分隔）文件中，并在一台拥有250GB RAM的50核Xeon机器上成功读取并尝试将其写出为一个 .parq 目录，如下所示： huge...

pythondataframeparquetdaskfastparquet

31得票6回答

使用Python读取文件夹中的多个Parquet文件并将其写入单个CSV文件

我是Python的新手，我有一个场景，其中有多个带有按顺序排列的文件名的parquet文件。例如：par_file1、par_file2、par_file3等，直到文件夹中达到100个文件。我需要按顺序读取这些parquet文件，从file1开始，并将其写入单个csv文件中。在写入file...

pandascsvparquet

9得票2回答

Tensorflow数据集API：使用Parquet文件的输入管道

我正在尝试使用Dataset API设计一个输入管道。我正在处理parquet文件。有什么好的方法将它们添加到我的管道中？

tensorflowpipelineparquet

9得票3回答

InternalError_: Spectrum扫描错误。S3到Redshift复制命令。

我想使用COPY命令从S3存储桶将数据复制到Redshift表中。文件格式为PARQUET。当运行执行COPY命令查询时，出现"InternalError_: Spectrum Scan Error"错误。这是我第一次尝试从Parquet文件进行复制。如果有解决方案，请帮助我。我正...

pythonamazon-s3amazon-redshiftparquet

19得票3回答

Spark在读取Parquet文件时是否会保留分区信息？

我在寻找这个问题的答案时遇到了很多麻烦。假设我将一个数据框写入parquet文件，并使用 repartition 和 partitionBy 来得到一个良好分区的parquet文件。见下文：df.repartition(col("DATE")).write.partitionBy("DATE"...

scalaapache-sparkpartitioningparquet

28得票3回答

如何将数据追加到现有的Parquet文件中

我正在使用以下代码创建ParquetWriter并向其中写入记录。ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAP...

javahadoopparquet

19得票3回答

如何使用Linux或HDFS命令将多个Parquet文件合并为单个Parquet文件？

我有多个小的parquet文件，这些文件是hive ql作业的输出结果，我想将这些输出文件合并成单个parquet文件。使用一些hdfs或linux命令最好的方法是什么？我们以前使用cat命令合并文本文件，但对于parquet文件是否也适用呢？在写输出文件时，我们是否可以像在spar...

hdfsparquet

14得票5回答

Parquet谓词下推在非EMR环境下使用Spark对S3起作用吗？

想知道Parquet谓词下推是否也适用于S3，而不仅仅是HDFS。特别是如果我们使用Spark（非EMR）。进一步的解释可能会有所帮助，因为这可能涉及对分布式文件系统的理解。

amazon-s3apache-sparkparquet

18得票3回答

Parquet Writer将数据缓存或转化为字节流

我有一个Java应用程序，可以将JSON消息转换为Parquet格式。是否有任何Parquet writer可以在Java中写入缓冲区或字节流？大多数示例都是写入文件。

javabufferedreaderparquet