8得票1回答
Pandas数据框架Parquet数据类型是什么?

我正在尝试使用Pandas和Pyarrow来将数据存储为parquet格式。我有成百上千个parquet文件,这些文件的模式不需要相同,但是如果列在parquets之间匹配,则它们必须具有相同的数据类型。 我遇到了一些问题,导致生成的parquet数据类型不符合我的要求。例如,我可能会将一个...

7得票1回答
为什么在Hive中查询Parquet文件比文本文件慢?

我决定将Parquet作为Hive表的存储格式,并在实际在我的集群中实现之前,我决定进行一些测试。令人惊讶的是,在我的测试中,Parquet比纯文本文件慢,这与一般认为它比纯文本文件更快的观点相反。 请注意,我正在MapR上使用Hive-0.13。 --------------------...

15得票6回答
使用Apache Arrow在R中读取分区的Parquet目录(所有文件)到一个数据框中

如何使用arrow将分区parquet文件读入R(不使用任何spark) 情况 使用Spark pipe创建parquet文件并保存在S3上 使用RStudio/RShiny读取,其中一列作为索引以进行进一步的分析 parquet文件结构 我从Spark创建的parquet文件由几...

7得票1回答
如何使用pyarrow存储自定义Parquet数据集元数据?

我怎样使用pyarrow将自定义元数据存储到ParquetDataset中呢? 例如,如果我使用Dask创建一个Parquet数据集。 import dask dask.datasets.timeseries().to_parquet('temp.parq') 我可以使用pyarrow读...

8得票1回答
Spark Dataframe/Parquet中的枚举类型相当于什么?

我有一个拥有数亿行的表格,我想将其存储在 Spark 的 dataframe 中,并作为 parquet 文件持久化到磁盘。我的 Parquet 文件大小已经超过 2TB,我希望能够对其进行优化。 其中很大一部分列是字符串值,可能很长,但通常只有非常少量的值。例如,我有一列仅具有两个不同值(...

12得票3回答
Hive - Varchar vs String,如果存储格式为Parquet文件格式,是否有任何优势?

我有一个HIVE表,将保存数十亿条记录,它是一种时间序列数据,因此按分钟进行分区。每分钟我们将有大约100万条记录。 我的表中有几个字段,VIN号码(17个字符),状态(2个字符)等等。 所以我的问题是,在创建表时,如果我选择使用Varchar(X)与String相比,是否会有任何存储或性...

15得票2回答
如何使用pyarrow和parquet保存具有自定义类型的pandas DataFrame

我希望你能帮我翻译一下关于IT技术的内容。需要翻译的内容如下:我想把一个pandas DataFrame保存为parquet格式,但是里面有一些不支持的类型(例如bson ObjectIds)。 在这些示例中,我们使用: import pandas as pd import pyarrow...

95得票6回答
Parquet与ORC与使用Snappy的ORC比较

我正在对Hive可用的存储格式进行一些测试,主要选择Parquet和ORC。其中,在默认压缩方式下使用了ORC一次,在使用Snappy压缩方式下使用了ORC一次。 我已经阅读了许多文件,这些文件指出Parquet在时间/空间复杂度方面比ORC更好,但是我的测试结果与我阅读的文件相反。 以下是我...

15得票6回答
AWS Glue爬虫为每个分区添加表格?

我有数千个文件以以下形式存储在S3存储桶中:├── bucket │ ├── somedata │ │   ├── year=2016 │ │   ├── year=2017 │ │   │   ├── month=11 │ │   | │   ├── sometype...

8得票1回答
Python的fastparquet模块能否读取压缩后的parquet文件?

我们的Parquet文件存储在AWS S3存储桶中,并使用SNAPPY进行压缩。 我能够使用Python fastparquet模块读取未压缩版本的Parquet文件,但无法读取压缩版本。 以下是我用于未压缩版本的代码: s3 = s3fs.S3FileSystem(key='XESF',...