最新 'parquet' 问题 - 第4页

关联标签

8得票1回答

我正在尝试使用Pandas和Pyarrow来将数据存储为parquet格式。我有成百上千个parquet文件，这些文件的模式不需要相同，但是如果列在parquets之间匹配，则它们必须具有相同的数据类型。我遇到了一些问题，导致生成的parquet数据类型不符合我的要求。例如，我可能会将一个...

7得票1回答

我决定将Parquet作为Hive表的存储格式，并在实际在我的集群中实现之前，我决定进行一些测试。令人惊讶的是，在我的测试中，Parquet比纯文本文件慢，这与一般认为它比纯文本文件更快的观点相反。请注意，我正在MapR上使用Hive-0.13。 --------------------...

15得票6回答

如何使用arrow将分区parquet文件读入R（不使用任何spark）情况使用Spark pipe创建parquet文件并保存在S3上使用RStudio/RShiny读取，其中一列作为索引以进行进一步的分析 parquet文件结构我从Spark创建的parquet文件由几...

7得票1回答

我怎样使用pyarrow将自定义元数据存储到ParquetDataset中呢？例如，如果我使用Dask创建一个Parquet数据集。 import dask dask.datasets.timeseries().to_parquet('temp.parq') 我可以使用pyarrow读...

8得票1回答

我有一个拥有数亿行的表格，我想将其存储在 Spark 的 dataframe 中，并作为 parquet 文件持久化到磁盘。我的 Parquet 文件大小已经超过 2TB，我希望能够对其进行优化。其中很大一部分列是字符串值，可能很长，但通常只有非常少量的值。例如，我有一列仅具有两个不同值（...

12得票3回答

我有一个HIVE表，将保存数十亿条记录，它是一种时间序列数据，因此按分钟进行分区。每分钟我们将有大约100万条记录。我的表中有几个字段，VIN号码（17个字符），状态（2个字符）等等。所以我的问题是，在创建表时，如果我选择使用Varchar（X）与String相比，是否会有任何存储或性...

15得票2回答

我希望你能帮我翻译一下关于IT技术的内容。需要翻译的内容如下：我想把一个pandas DataFrame保存为parquet格式，但是里面有一些不支持的类型（例如bson ObjectIds）。在这些示例中，我们使用： import pandas as pd import pyarrow...

95得票6回答

我正在对Hive可用的存储格式进行一些测试，主要选择Parquet和ORC。其中，在默认压缩方式下使用了ORC一次，在使用Snappy压缩方式下使用了ORC一次。我已经阅读了许多文件，这些文件指出Parquet在时间/空间复杂度方面比ORC更好，但是我的测试结果与我阅读的文件相反。以下是我...

15得票6回答

我有数千个文件以以下形式存储在S3存储桶中：├── bucket │ ├── somedata │ │ ├── year=2016 │ │ ├── year=2017 │ │ │ ├── month=11 │ │ | │ ├── sometype...

8得票1回答

我们的Parquet文件存储在AWS S3存储桶中，并使用SNAPPY进行压缩。我能够使用Python fastparquet模块读取未压缩版本的Parquet文件，但无法读取压缩版本。以下是我用于未压缩版本的代码： s3 = s3fs.S3FileSystem(key='XESF',...