24得票5回答
能否分块读取parquet文件?

例如,pandas的read_csv具有一个chunk_size参数,它允许read_csv返回CSV文件上的迭代器,以便我们可以分块读取它。 Parquet格式将数据存储在块中,但没有记录的方法可以像read_csv那样分块读取。 是否有一种方法可以分块读取parquet文件?

24得票4回答
pyarrow.lib.ArrowInvalid: ('无法将类型为Y的X进行转换:在推断Arrow数据类型时未识别Python值类型')

使用pyarrow将包含Player对象的pandas.DataFrame转换为pyarrow.Table的代码如下:import pandas as pd import pyarrow as pa class Player: def __init__(self, name, age...

23得票2回答
为什么Apache Spark会读取嵌套结构中不必要的Parquet列?

我的团队正在使用Spark构建ETL过程,将原始分隔符文本文件加载到基于Parquet的“数据湖”中。 Parquet列存储的一个承诺是查询只会读取必要的“列条纹”。 但是,对于嵌套模式结构,我们发现正在阅读意外的列。 为了说明这一点,这里有一个使用Scala和Spark 2.0.1 shel...

23得票2回答
如何在独立的Java代码中读取Parquet文件?

来自Cloudera的Parquet文档展示了与Pig/Hive/Impala集成的示例。但在许多情况下,我想阅读Parquet文件本身以进行调试。 是否有一个直观的Java Reader API可以读取Parquet文件? 谢谢。 杨

22得票2回答
在Java中创建Parquet文件

有没有一种方式可以从Java创建Parquet文件? 我有内存中的数据(Java类),我想将它写入一个Parquet文件,以便稍后从apache-drill中读取。 是否有一种简单的方法来完成这个任务,例如像将数据插入SQL表那样? GOT IT 感谢您的帮助。 结合答案和这个链接,...

22得票4回答
使用Spark通过s3a将parquet文件写入S3非常缓慢。

我正在尝试使用Spark 1.6.1将一个parquet文件写入到Amazon S3。我生成的小型parquet文件一旦写入就是~2GB,因此数据量不是很大。我正在尝试将Spark作为我可以使用的平台证明。 基本上,我正在使用dataframes设置star schema,然后将这些表写入p...

22得票4回答
更新Apache Parquet文件中的值。

我有一个相当庞大的Parquet文件,需要更改其中一列的值。一种方法是在源文本文件中更新这些值并重新创建Parquet文件,但我想知道是否有更便宜、更容易的解决方案。

22得票2回答
如何使用pyarrow编写Parquet元数据?

我使用pyarrow创建和分析带有生物信息的Parquet表,并且需要存储一些元数据,例如数据来自哪个样本,如何获取和处理等信息。 Parquet似乎支持文件级元数据,但我找不到如何通过pyarrow编写它的方法。我能找到的最接近的是如何编写行组元数据,但这似乎过于复杂,因为我的元数据对文件...

21得票4回答
PySpark:org.apache.spark.sql.AnalysisException:属性名称...包含无效字符,包括“,; {}()\ n \ t =”。请使用别名进行重命名。

我正在尝试将Parquet数据加载到PySpark中,其中一列名称中有空格: df = spark.read.parquet('my_parquet_dump') df.select(df['Foo Bar'].alias('foobar')) 尽管我已经为该列设置了别名,但仍然出现错误...

21得票7回答
Spark Dataframe验证列名以进行Parquet写入

我正在使用由JSON事件流转换而来的Dataframes处理事件,最终将其写为Parquet格式。然而,一些JSON事件中的键名包含空格,我希望在将其转换为Parquet之前从数据框中记录并过滤/删除此类事件,因为在Parquet模式(CatalystSchemaConverter)中,;{}...