9得票3回答
如何在Spark中更高效地加载Parquet文件(pySpark v1.2.0)

我正在加载高维Parquet文件,但只需要几列。 我目前的代码如下: dat = sqc.parquetFile(path) \ .filter(lambda r: len(r.a)>0) \ .map(lambda r: (r.a, r.b, ...

28得票4回答
如何在Intellij中查看Parquet文件

我想在Intellij中打开一个parquet文件并查看表的内容。目前或者通过插件有没有这样做的方法?

10得票1回答
Apache Spark Parquet:无法构建空分组

我使用Apache Spark 2.1.1(之前用过2.1.0,效果一样,今天切换回来)。 我有一个数据集:root |-- muons: array (nullable = true) | |-- element: struct (containsNull = true) | |...

8得票2回答
大型数据集中的pandas转储到Parquet失败

我将尝试使用pandas的to_parquet函数保存一个非常大的数据集,但是当超过一定限制时,无论是使用'pyarrow'还是'fastparquet'都会失败。我使用以下代码复现了出现的错误,并且很乐意听取如何解决这个问题的想法: 使用Pyarrow: low = 3 high = 8...

27得票6回答
Spark:DataFrame.saveAsTable或DataFrameWriter.options可以传递哪些选项?

开发者和 API 文档都没有提到在调用 DataFrame.saveAsTable 或 DataFrameWriter.options 时可以传递哪些选项,并且这些选项会如何影响保存到 Hive 表中的数据。 我希望通过这个问题的回答,我们可以收集有助于 Spark 开发者更好地控制 Spa...

17得票1回答
从AWS S3桶中读取parquet数据

我需要从AWS S3中读取parquet数据。如果我使用AWS SDK,我可以像这样获取输入流:S3Object object = s3Client.getObject(new GetObjectRequest(bucketName, bucketKey)); InputStream inpu...

10得票3回答
如何通过Spark更改写入文件的ZSTD压缩级别?

在Spark文档中指出,默认的zstd压缩级别为1。https://spark.apache.org/docs/latest/configuration.html 我在spark-defaults.conf和代码内部设置了不同的值。 val conf = new SparkConf(fal...

8得票1回答
写入和重新读取parquet文件时保留数据框分区

当我将具有定义分区的dataframe写入磁盘作为parquet文件,然后再次读取parquet文件时,分区信息会丢失。是否有一种方法在写入和重新读取期间保留dataframe的原始分区? 示例代码: //create a dataframe with 100 partitions and...

95得票6回答
Parquet与ORC与使用Snappy的ORC比较

我正在对Hive可用的存储格式进行一些测试,主要选择Parquet和ORC。其中,在默认压缩方式下使用了ORC一次,在使用Snappy压缩方式下使用了ORC一次。 我已经阅读了许多文件,这些文件指出Parquet在时间/空间复杂度方面比ORC更好,但是我的测试结果与我阅读的文件相反。 以下是我...

21得票1回答
Parquet能支持并发写操作吗?

能否对parquet格式执行分布式并发写入操作? 同时在写入时读取parquet文件是否可行? 如果有关于并发读/写的方法,我很感兴趣学习。