21得票1回答
Parquet能支持并发写操作吗?

能否对parquet格式执行分布式并发写入操作? 同时在写入时读取parquet文件是否可行? 如果有关于并发读/写的方法,我很感兴趣学习。

21得票2回答
使用Java将Json对象转换为Parquet格式而不转换为AVRO的方法(不使用Spark,Hive,Pig,Impala)

我有一个场景,需要用Java将以Json对象形式存在的消息转换为Apache Parquet格式。有任何示例代码或例子都会很有帮助。据我所知,要将消息转换为Parquet,需要使用Hive、Pig或Spark。但我需要在不涉及这些工具的情况下,仅通过Java将其转换为Parquet格式。

20得票1回答
有没有Python库支持将结构数组写入Parquet文件?

我想将一些列字符串数组或结构体数组(通常是键值对)的数据写入Parquet文件,以供在AWS Athena中使用。 在找到两个支持写入Parquet文件的Python库(Arrow和fastparquet)之后,我花了一段时间尝试实现结构体数组。 在写入Parquet文件的问题上,最佳答案...

20得票1回答
在HBase和Parquet文件中存储数据的区别

我是新手,尝试理解数据持久化和检索的各种方式。我了解Parquet和HBase都是基于列的存储格式,但Parquet是面向文件的存储方式,而不像HBase是一个数据库。 我的问题是: 在什么情况下使用Parquet而不是HBase? 是否有使用情景可以将Parquet与HBase一起使用?...

19得票3回答
如何使用Linux或HDFS命令将多个Parquet文件合并为单个Parquet文件?

我有多个小的parquet文件,这些文件是hive ql作业的输出结果,我想将这些输出文件合并成单个parquet文件。 使用一些hdfs或linux命令最好的方法是什么? 我们以前使用cat命令合并文本文件,但对于parquet文件是否也适用呢? 在写输出文件时,我们是否可以像在spar...

19得票3回答
Spark在读取Parquet文件时是否会保留分区信息?

我在寻找这个问题的答案时遇到了很多麻烦。假设我将一个数据框写入parquet文件,并使用 repartition 和 partitionBy 来得到一个良好分区的parquet文件。见下文:df.repartition(col("DATE")).write.partitionBy("DATE"...

19得票3回答
使用Python在Parquet中处理嵌套数据

我有一个每行包含一个JSON的文件。这是一个示例:{ "product": { "id": "abcdef", "price": 19.99, "specs": { "voltage": "110v", ...

19得票2回答
向分区Parquet文件追加新数据

我正在编写一个ETL过程,需要读取每小时的日志文件,对数据进行分区并保存。 我使用Databricks中的Spark。 这些日志文件是CSV格式,因此我需要读取它们并应用模式,然后执行转换。 我的问题是,如何将每小时的数据保存为parquet格式并附加到现有数据集? 在保存时,我需要按数据框中...

19得票3回答
Spark是否支持Parquet文件的分区修剪?

我正在处理一个大数据集,由两个列 - plant_name和tag_id进行分区。第二个分区 - tag_id具有200,000个唯一值,并且我主要通过特定的tag_id值访问数据。如果我使用以下的Spark命令:sqlContext.setConf("spark.sql.hive.metas...

19得票7回答
在Python中获取Parquet文件的模式

有没有任何Python库可以只获取parquet文件的模式? 目前我们正在将parquet文件加载到Spark中的dataframe中,并从dataframe中获取架构以在应用程序的某个UI中显示。但是初始化spark-context和加载数据框并从数据框中获取模式是一项耗时的活动。因此,寻...