得票数最多 'parquet' 问题 - 第4页

关联标签

32得票3回答

将AWS Kinesis Firehose中的Parquet格式数据写入AWS S3

我想将以parquet格式的数据从Kinesis Firehose导入S3。到目前为止，我只找到了一个需要创建EMR的解决方案，但我正在寻找更便宜和更快的方式，比如直接从Firehose将接收到的JSON存储为parquet，或者使用Lambda函数。非常感谢， Javi。

jsonamazon-web-servicesamazon-s3parquetamazon-kinesis-firehose

32得票2回答

从Spark写入parquet时如何处理null值

直到最近，parquet不支持null值-这是一个值得质疑的前提。事实上，最近的版本终于添加了这种支持： https://github.com/apache/parquet-format/blob/master/LogicalTypes.md 然而，要让spark支持新的parquet特...

apache-sparkparquet

32得票6回答

在Pyspark中读取多个目录下的parquet文件

我需要从不是父目录或子目录的多个路径中读取parquet文件。例如，dir1 --- | ------- dir1_1 | ------- dir1_2 dir2 --- | ------- dir2_1 ...

pysparkparquet

31得票6回答

使用Python读取文件夹中的多个Parquet文件并将其写入单个CSV文件

我是Python的新手，我有一个场景，其中有多个带有按顺序排列的文件名的parquet文件。例如：par_file1、par_file2、par_file3等，直到文件夹中达到100个文件。我需要按顺序读取这些parquet文件，从file1开始，并将其写入单个csv文件中。在写入file...

pandascsvparquet

31得票6回答

不使用Hadoop如何使用Parquet？

我想在我的项目中使用Parquet作为列式存储。但是，我不想依赖于Hadoop/HDFS库。是否可以在HDFS之外使用Parquet？或者最小的依赖是什么？

hadoophdfsparquet

31得票5回答

Spark：仅在路径存在时读取文件

我试图在 Scala 中读取 Sequence 路径下的文件。以下是示例（伪）代码： val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*) 在上面的序列中，有些路径存在，而有些...

scalaapache-sparkparquet

30得票3回答

Spark保存（写入）Parquet文件只有一个文件

如果我写dataFrame.write.format("parquet").mode("append").save("temp.parquet") 在temp.parquet文件夹中，我得到了与行数相同的文件编号。我觉得我对parquet还不是很理解，这是否正常？

scalaapache-sparkparquet

30得票4回答

多个Spark作业将Parquet数据附加到相同的基本路径并进行分区。

我有多个工作要并行执行，每天会使用分区将数据追加到相同的路径中。例如：dataFrame.write(). partitionBy("eventDate", "category") .mode(Append) .parque...

apache-sparkparquet

29得票2回答

如何识别Pandas与Parquet的后端。

我了解到Pandas可以使用不同的后端（pyarrow和fastparquet）来读写Parquet文件。我有一个带有Intel发行版的Conda分发版本，"它可以正常工作"：我可以使用pandas.DataFrame.to_parquet。但是我没有安装pyarrow，所以我猜测会使用fas...

pythonpandasparquet

28得票7回答

使用pandas将数据框以追加方式写入parquet格式。

我试图在pandas中以append模式将dataframe写入到parquet文件格式（在最近的pandas版本0.21.0中引入）。然而，它并没有像预期那样将数据附加到现有文件中，而是用新数据覆盖了原有文件。我错过了什么吗？写入语法如下：df.to_parquet(path, mode...

pythonapachepandasparquet