32得票3回答
将AWS Kinesis Firehose中的Parquet格式数据写入AWS S3

我想将以parquet格式的数据从Kinesis Firehose导入S3。到目前为止,我只找到了一个需要创建EMR的解决方案,但我正在寻找更便宜和更快的方式,比如直接从Firehose将接收到的JSON存储为parquet,或者使用Lambda函数。 非常感谢, Javi。

32得票2回答
从Spark写入parquet时如何处理null值

直到最近,parquet不支持null值-这是一个值得质疑的前提。事实上,最近的版本终于添加了这种支持: https://github.com/apache/parquet-format/blob/master/LogicalTypes.md 然而,要让spark支持新的parquet特...

32得票6回答
在Pyspark中读取多个目录下的parquet文件

我需要从不是父目录或子目录的多个路径中读取parquet文件。 例如,dir1 --- | ------- dir1_1 | ------- dir1_2 dir2 --- | ------- dir2_1 ...

31得票6回答
使用Python读取文件夹中的多个Parquet文件并将其写入单个CSV文件

我是Python的新手,我有一个场景,其中有多个带有按顺序排列的文件名的parquet文件。例如:par_file1、par_file2、par_file3等,直到文件夹中达到100个文件。 我需要按顺序读取这些parquet文件,从file1开始,并将其写入单个csv文件中。在写入file...

31得票6回答
不使用Hadoop如何使用Parquet?

我想在我的项目中使用Parquet作为列式存储。但是,我不想依赖于Hadoop/HDFS库。是否可以在HDFS之外使用Parquet?或者最小的依赖是什么?

31得票5回答
Spark:仅在路径存在时读取文件

我试图在 Scala 中读取 Sequence 路径下的文件。以下是示例(伪)代码: val paths = Seq[String] //Seq of paths val dataframe = spark.read.parquet(paths: _*) 在上面的序列中,有些路径存在,而有些...

30得票3回答
Spark保存(写入)Parquet文件只有一个文件

如果我写dataFrame.write.format("parquet").mode("append").save("temp.parquet") 在temp.parquet文件夹中,我得到了与行数相同的文件编号。 我觉得我对parquet还不是很理解,这是否正常?

30得票4回答
多个Spark作业将Parquet数据附加到相同的基本路径并进行分区。

我有多个工作要并行执行,每天会使用分区将数据追加到相同的路径中。 例如:dataFrame.write(). partitionBy("eventDate", "category") .mode(Append) .parque...

29得票2回答
如何识别Pandas与Parquet的后端。

我了解到Pandas可以使用不同的后端(pyarrow和fastparquet)来读写Parquet文件。我有一个带有Intel发行版的Conda分发版本,"它可以正常工作":我可以使用pandas.DataFrame.to_parquet。但是我没有安装pyarrow,所以我猜测会使用fas...

28得票7回答
使用pandas将数据框以追加方式写入parquet格式。

我试图在pandas中以append模式将dataframe写入到parquet文件格式(在最近的pandas版本0.21.0中引入)。然而,它并没有像预期那样将数据附加到现有文件中,而是用新数据覆盖了原有文件。我错过了什么吗? 写入语法如下:df.to_parquet(path, mode...