7得票4回答
不读入内存的情况下读写 Parquet 文件(使用 Python)。

我查看了标准文档,我期望找到符合我需求的内容(Apache Arrow和Pandas),但似乎无法解决问题。 我最熟悉Python,因此希望使用Python,但这不是必须的要求。 问题 我需要将 Parquet 文件从一个位置(URL)移动到另一个位置(Azure 存储帐户,在此情况...

14得票3回答
向现有的Parquet文件追加一个新列

有没有办法向现有的parquet文件中追加新列? 我目前正在参加kaggle比赛,将所有数据转换为parquet文件。 这是情况,我将parquet文件读入pyspark DataFrame,并进行了一些特征提取,并使用pysaprk.DataFrame.withColumn()向Data...

14得票1回答
在Azure HDInsights中从分区的Parquet文件创建Hive外部表

我在Azure Blob存储中保存了作为Parquet文件的数据,按年、月、日和小时进行了分区,如下所示: cont/data/year=2017/month=02/day=01/ 我想使用以下创建语句在Hive中创建外部表,我是使用此参考文档编写的。 CREATE EXTERNAL T...

61得票8回答
Python:将 Pandas 数据帧保存为 Parquet 文件

是否可以直接将pandas数据框保存为parquet文件?如果不能,建议采取什么过程? 目的是能够将parquet文件发送给另一个团队,他们可以使用Scala代码来读取/打开它。谢谢!

7得票1回答
Spark使用partitionBy会比不使用更慢

我使用以下工具进行了写作测试: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath) 然而,如果我省略分区: df.write .mode(SaveMode....

36得票4回答
Spark是否支持对存储在S3的parquet文件进行真正的列扫描?

Parquet数据存储格式的一个巨大优势是它是按列存储的。如果我的数据集有几百列,但我的查询只涉及其中几列,那么就可以只读取存储这几列数据的数据,跳过其余部分。 想必这个功能是通过在 Parquet 文件头部读取一些元数据,指示每个列在文件系统上的位置来实现的。然后读取器可以在磁盘上寻址,仅...

23得票2回答
为什么Apache Spark会读取嵌套结构中不必要的Parquet列?

我的团队正在使用Spark构建ETL过程,将原始分隔符文本文件加载到基于Parquet的“数据湖”中。 Parquet列存储的一个承诺是查询只会读取必要的“列条纹”。 但是,对于嵌套模式结构,我们发现正在阅读意外的列。 为了说明这一点,这里有一个使用Scala和Spark 2.0.1 shel...

19得票3回答
如何使用Linux或HDFS命令将多个Parquet文件合并为单个Parquet文件?

我有多个小的parquet文件,这些文件是hive ql作业的输出结果,我想将这些输出文件合并成单个parquet文件。 使用一些hdfs或linux命令最好的方法是什么? 我们以前使用cat命令合并文本文件,但对于parquet文件是否也适用呢? 在写输出文件时,我们是否可以像在spar...

22得票4回答
使用Spark通过s3a将parquet文件写入S3非常缓慢。

我正在尝试使用Spark 1.6.1将一个parquet文件写入到Amazon S3。我生成的小型parquet文件一旦写入就是~2GB,因此数据量不是很大。我正在尝试将Spark作为我可以使用的平台证明。 基本上,我正在使用dataframes设置star schema,然后将这些表写入p...

20得票1回答
在HBase和Parquet文件中存储数据的区别

我是新手,尝试理解数据持久化和检索的各种方式。我了解Parquet和HBase都是基于列的存储格式,但Parquet是面向文件的存储方式,而不像HBase是一个数据库。 我的问题是: 在什么情况下使用Parquet而不是HBase? 是否有使用情景可以将Parquet与HBase一起使用?...