28得票3回答
如何将数据追加到现有的Parquet文件中

我正在使用以下代码创建ParquetWriter并向其中写入记录。ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAP...

28得票4回答
使用谓词从pyarrow.parquet.ParquetDataset中筛选行

我有一个存储在s3上的镶木地板数据集,我想从数据集中查询特定的行。我能够使用petastorm做到这一点,但现在我想仅使用pyarrow来完成。 以下是我的尝试:import pyarrow.parquet as pq import s3fs fs = s3fs.S3FileSystem(...

28得票4回答
如何在Intellij中查看Parquet文件

我想在Intellij中打开一个parquet文件并查看表的内容。目前或者通过插件有没有这样做的方法?

27得票6回答
Spark:DataFrame.saveAsTable或DataFrameWriter.options可以传递哪些选项?

开发者和 API 文档都没有提到在调用 DataFrame.saveAsTable 或 DataFrameWriter.options 时可以传递哪些选项,并且这些选项会如何影响保存到 Hive 表中的数据。 我希望通过这个问题的回答,我们可以收集有助于 Spark 开发者更好地控制 Spa...

26得票2回答
Spark列出所有分区数据的叶子节点。

我有按日期和小时分区的Parquet数据,文件夹结构如下:events_v3 -- event_date=2015-01-01 -- event_hour=2015-01-1 -- part10000.parquet.gz -- event_date=2015-01...

26得票3回答
如何在Apache Spark中处理变化的Parquet模式

我遇到了一个问题,我的Parquet数据以每天的形式存储在S3中(格式为s3://bucketName/prefix/YYYY/MM/DD/),但我不能从不同日期读取AWS EMR Spark中的数据,因为有些列类型不匹配,导致出现多种异常,例如:java.lang.ClassCastExce...

26得票4回答
我们能直接将Parquet文件加载到Hive中吗?

我知道我们可以使用Spark SQL和Impala加载parquet文件,但想知道是否可以使用Hive进行相同操作。我看了很多文章,但还是感到困惑。 简单来说,我有一个parquet文件——比方说叫做users.parquet。现在我卡在这里,不知道如何将users.parquet中的数据加...

25得票4回答
在Spark中从Parquet文件中读取特定列的高效方法

如何在Spark中从具有许多列的Parquet文件中仅读取子集列最有效?使用spark.read.format("parquet").load(<parquet>).select(...col1, col2)来完成这个任务是最好的方法吗?我还想使用类型安全的数据集与案例类来预定义我...

25得票8回答
Apache Parquet的GUI工具用于查看/编辑

我有一些Apache Parquet文件。我知道我可以在终端中执行parquet file.parquet并在其中查看它。但是我想要一些GUI工具以更用户友好的格式查看Parquet文件。是否存在这样的程序?

24得票3回答
在AWS Glue中,如何从动态框架中覆盖Parquet文件?

我使用动态框架在S3中编写parquet文件,但如果文件已经存在,则我的程序会追加新文件而不是替换它。我使用的句子是:glueContext.write_dynamic_frame.from_options(frame = table, ...