得票数最多 'parquet' 问题 - 第7页

标签列表

关联标签

21得票1回答

Parquet能支持并发写操作吗？

能否对parquet格式执行分布式并发写入操作？同时在写入时读取parquet文件是否可行？如果有关于并发读/写的方法，我很感兴趣学习。

parquet

21得票2回答

使用Java将Json对象转换为Parquet格式而不转换为AVRO的方法（不使用Spark，Hive，Pig，Impala）

我有一个场景，需要用Java将以Json对象形式存在的消息转换为Apache Parquet格式。有任何示例代码或例子都会很有帮助。据我所知，要将消息转换为Parquet，需要使用Hive、Pig或Spark。但我需要在不涉及这些工具的情况下，仅通过Java将其转换为Parquet格式。

javajsonhadoopparquet

20得票1回答

有没有Python库支持将结构数组写入Parquet文件？

我想将一些列字符串数组或结构体数组（通常是键值对）的数据写入Parquet文件，以供在AWS Athena中使用。在找到两个支持写入Parquet文件的Python库（Arrow和fastparquet）之后，我花了一段时间尝试实现结构体数组。在写入Parquet文件的问题上，最佳答案...

pythonparquetpyarrowfastparquet

20得票1回答

在HBase和Parquet文件中存储数据的区别

我是新手，尝试理解数据持久化和检索的各种方式。我了解Parquet和HBase都是基于列的存储格式，但Parquet是面向文件的存储方式，而不像HBase是一个数据库。我的问题是：在什么情况下使用Parquet而不是HBase？是否有使用情景可以将Parquet与HBase一起使用？...

hadoophbaseparquetapache-phoenix

19得票3回答

如何使用Linux或HDFS命令将多个Parquet文件合并为单个Parquet文件？

我有多个小的parquet文件，这些文件是hive ql作业的输出结果，我想将这些输出文件合并成单个parquet文件。使用一些hdfs或linux命令最好的方法是什么？我们以前使用cat命令合并文本文件，但对于parquet文件是否也适用呢？在写输出文件时，我们是否可以像在spar...

hdfsparquet

19得票3回答

Spark在读取Parquet文件时是否会保留分区信息？

我在寻找这个问题的答案时遇到了很多麻烦。假设我将一个数据框写入parquet文件，并使用 repartition 和 partitionBy 来得到一个良好分区的parquet文件。见下文：df.repartition(col("DATE")).write.partitionBy("DATE"...

scalaapache-sparkpartitioningparquet

19得票3回答

使用Python在Parquet中处理嵌套数据

我有一个每行包含一个JSON的文件。这是一个示例：{ "product": { "id": "abcdef", "price": 19.99, "specs": { "voltage": "110v", ...

pythonjsonparquetdask

19得票2回答

向分区Parquet文件追加新数据

我正在编写一个ETL过程，需要读取每小时的日志文件，对数据进行分区并保存。我使用Databricks中的Spark。这些日志文件是CSV格式，因此我需要读取它们并应用模式，然后执行转换。我的问题是，如何将每小时的数据保存为parquet格式并附加到现有数据集？在保存时，我需要按数据框中...

scalaapache-sparkappendparquet

19得票3回答

Spark是否支持Parquet文件的分区修剪？

我正在处理一个大数据集，由两个列 - plant_name和tag_id进行分区。第二个分区 - tag_id具有200,000个唯一值，并且我主要通过特定的tag_id值访问数据。如果我使用以下的Spark命令：sqlContext.setConf("spark.sql.hive.metas...

apache-sparkamazon-s3hiveparquet

19得票7回答

在Python中获取Parquet文件的模式

有没有任何Python库可以只获取parquet文件的模式？目前我们正在将parquet文件加载到Spark中的dataframe中，并从dataframe中获取架构以在应用程序的某个UI中显示。但是初始化spark-context和加载数据框并从数据框中获取模式是一项耗时的活动。因此，寻...

pythonparquet