最新 'parquet' 问题 - 第2页

我需要从AWS S3中读取parquet数据。如果我使用AWS SDK，我可以像这样获取输入流:S3Object object = s3Client.getObject(new GetObjectRequest(bucketName, bucketKey)); InputStream inpu...

javaamazon-web-servicesamazon-s3parquet

10得票3回答

如何通过Spark更改写入文件的ZSTD压缩级别？

在Spark文档中指出，默认的zstd压缩级别为1。https://spark.apache.org/docs/latest/configuration.html 我在spark-defaults.conf和代码内部设置了不同的值。 val conf = new SparkConf(fal...

apache-sparkcompressionparquetzstd

8得票1回答

写入和重新读取parquet文件时保留数据框分区

当我将具有定义分区的dataframe写入磁盘作为parquet文件，然后再次读取parquet文件时，分区信息会丢失。是否有一种方法在写入和重新读取期间保留dataframe的原始分区？示例代码： //create a dataframe with 100 partitions and...

apache-sparkparquet

95得票6回答

Parquet与ORC与使用Snappy的ORC比较

我正在对Hive可用的存储格式进行一些测试，主要选择Parquet和ORC。其中，在默认压缩方式下使用了ORC一次，在使用Snappy压缩方式下使用了ORC一次。我已经阅读了许多文件，这些文件指出Parquet在时间/空间复杂度方面比ORC更好，但是我的测试结果与我阅读的文件相反。以下是我...

hadoophiveparquetsnappyorc

21得票1回答

Parquet能支持并发写操作吗？

能否对parquet格式执行分布式并发写入操作？同时在写入时读取parquet文件是否可行？如果有关于并发读/写的方法，我很感兴趣学习。

parquet