得票数最多 'parquet' 问题 - 第6页

关联标签

24得票5回答

能否分块读取parquet文件？

例如，pandas的read_csv具有一个chunk_size参数，它允许read_csv返回CSV文件上的迭代器，以便我们可以分块读取它。 Parquet格式将数据存储在块中，但没有记录的方法可以像read_csv那样分块读取。是否有一种方法可以分块读取parquet文件？

parquet

24得票4回答

pyarrow.lib.ArrowInvalid: ('无法将类型为Y的X进行转换：在推断Arrow数据类型时未识别Python值类型')

使用pyarrow将包含Player对象的pandas.DataFrame转换为pyarrow.Table的代码如下：import pandas as pd import pyarrow as pa class Player: def __init__(self, name, age...

pythonpandasparquetpyarrowfastparquet

23得票2回答

为什么Apache Spark会读取嵌套结构中不必要的Parquet列？

我的团队正在使用Spark构建ETL过程，将原始分隔符文本文件加载到基于Parquet的“数据湖”中。 Parquet列存储的一个承诺是查询只会读取必要的“列条纹”。但是，对于嵌套模式结构，我们发现正在阅读意外的列。为了说明这一点，这里有一个使用Scala和Spark 2.0.1 shel...

apache-sparkapache-spark-sqlparquet

23得票2回答

如何在独立的Java代码中读取Parquet文件？

来自Cloudera的Parquet文档展示了与Pig/Hive/Impala集成的示例。但在许多情况下，我想阅读Parquet文件本身以进行调试。是否有一个直观的Java Reader API可以读取Parquet文件？谢谢。杨

javaparquet

22得票2回答

在Java中创建Parquet文件

有没有一种方式可以从Java创建Parquet文件？我有内存中的数据（Java类），我想将它写入一个Parquet文件，以便稍后从apache-drill中读取。是否有一种简单的方法来完成这个任务，例如像将数据插入SQL表那样？ GOT IT 感谢您的帮助。结合答案和这个链接，...

javaparquet

22得票4回答

使用Spark通过s3a将parquet文件写入S3非常缓慢。

我正在尝试使用Spark 1.6.1将一个parquet文件写入到Amazon S3。我生成的小型parquet文件一旦写入就是~2GB，因此数据量不是很大。我正在尝试将Spark作为我可以使用的平台证明。基本上，我正在使用dataframes设置star schema，然后将这些表写入p...

scalaamazon-s3apache-sparkapache-spark-sqlparquet

22得票4回答

更新Apache Parquet文件中的值。

我有一个相当庞大的Parquet文件，需要更改其中一列的值。一种方法是在源文本文件中更新这些值并重新创建Parquet文件，但我想知道是否有更便宜、更容易的解决方案。

apache-sparkparquet

22得票2回答

如何使用pyarrow编写Parquet元数据？

我使用pyarrow创建和分析带有生物信息的Parquet表，并且需要存储一些元数据，例如数据来自哪个样本，如何获取和处理等信息。 Parquet似乎支持文件级元数据，但我找不到如何通过pyarrow编写它的方法。我能找到的最接近的是如何编写行组元数据，但这似乎过于复杂，因为我的元数据对文件...

pythonparquetpyarrow

21得票4回答

PySpark：org.apache.spark.sql.AnalysisException：属性名称...包含无效字符，包括“，; {}（）\ n \ t =”。请使用别名进行重命名。

我正在尝试将Parquet数据加载到PySpark中，其中一列名称中有空格： df = spark.read.parquet('my_parquet_dump') df.select(df['Foo Bar'].alias('foobar')) 尽管我已经为该列设置了别名，但仍然出现错误...

pythonapache-sparkpysparkapache-spark-sqlparquet

21得票7回答

Spark Dataframe验证列名以进行Parquet写入

我正在使用由JSON事件流转换而来的Dataframes处理事件，最终将其写为Parquet格式。然而，一些JSON事件中的键名包含空格，我希望在将其转换为Parquet之前从数据框中记录并过滤/删除此类事件，因为在Parquet模式（CatalystSchemaConverter）中，;{}...

apache-sparkpysparkapache-spark-sqlspark-streamingparquet