最新 'parquet' 问题

关联标签

7得票4回答

我查看了标准文档，我期望找到符合我需求的内容（Apache Arrow和Pandas），但似乎无法解决问题。我最熟悉Python，因此希望使用Python，但这不是必须的要求。问题我需要将 Parquet 文件从一个位置（URL）移动到另一个位置（Azure 存储帐户，在此情况...

14得票3回答

有没有办法向现有的parquet文件中追加新列？我目前正在参加kaggle比赛，将所有数据转换为parquet文件。这是情况，我将parquet文件读入pyspark DataFrame，并进行了一些特征提取，并使用pysaprk.DataFrame.withColumn()向Data...

14得票1回答

我在Azure Blob存储中保存了作为Parquet文件的数据，按年、月、日和小时进行了分区，如下所示： cont/data/year=2017/month=02/day=01/ 我想使用以下创建语句在Hive中创建外部表，我是使用此参考文档编写的。 CREATE EXTERNAL T...

61得票8回答

是否可以直接将pandas数据框保存为parquet文件？如果不能，建议采取什么过程？目的是能够将parquet文件发送给另一个团队，他们可以使用Scala代码来读取/打开它。谢谢！

7得票1回答

我使用以下工具进行了写作测试: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath) 然而，如果我省略分区： df.write .mode(SaveMode....

36得票4回答

Parquet数据存储格式的一个巨大优势是它是按列存储的。如果我的数据集有几百列，但我的查询只涉及其中几列，那么就可以只读取存储这几列数据的数据，跳过其余部分。想必这个功能是通过在 Parquet 文件头部读取一些元数据，指示每个列在文件系统上的位置来实现的。然后读取器可以在磁盘上寻址，仅...

23得票2回答

我的团队正在使用Spark构建ETL过程，将原始分隔符文本文件加载到基于Parquet的“数据湖”中。 Parquet列存储的一个承诺是查询只会读取必要的“列条纹”。但是，对于嵌套模式结构，我们发现正在阅读意外的列。为了说明这一点，这里有一个使用Scala和Spark 2.0.1 shel...

19得票3回答

我有多个小的parquet文件，这些文件是hive ql作业的输出结果，我想将这些输出文件合并成单个parquet文件。使用一些hdfs或linux命令最好的方法是什么？我们以前使用cat命令合并文本文件，但对于parquet文件是否也适用呢？在写输出文件时，我们是否可以像在spar...

22得票4回答

我正在尝试使用Spark 1.6.1将一个parquet文件写入到Amazon S3。我生成的小型parquet文件一旦写入就是~2GB，因此数据量不是很大。我正在尝试将Spark作为我可以使用的平台证明。基本上，我正在使用dataframes设置star schema，然后将这些表写入p...

20得票1回答

我是新手，尝试理解数据持久化和检索的各种方式。我了解Parquet和HBase都是基于列的存储格式，但Parquet是面向文件的存储方式，而不像HBase是一个数据库。我的问题是：在什么情况下使用Parquet而不是HBase？是否有使用情景可以将Parquet与HBase一起使用？...