79得票5回答
fastparquet和pyarrow的比较?

我进行了一些搜索,但没有找到完整的fastparquet和pyarrow比较的资料。 我找到了这篇博客文章(一个速度的基本比较)。 还有一个在github上的讨论声称使用fastparquet创建的文件不支持AWS-athena(顺便问一下,现在还是这样吗?) 何时/为什么会使用其中之一...

10得票2回答
如何使用纯Java生成Parquet文件(包括日期和小数类型)并上传到S3 [Windows](无需HDFS)

我最近有一个需求,需要生成Parquet文件,并且只能使用Java来读取这些文件,不能使用其他任何软件(例如:Apache Drill、Hive、Spark等)。这些文件需要保存到S3,所以我将分享如何完成这两个步骤的详细信息。 关于如何完成这个需求,目前没有简单易懂的指南。而且我也不是一名...

24得票4回答
pyarrow.lib.ArrowInvalid: ('无法将类型为Y的X进行转换:在推断Arrow数据类型时未识别Python值类型')

使用pyarrow将包含Player对象的pandas.DataFrame转换为pyarrow.Table的代码如下:import pandas as pd import pyarrow as pa class Player: def __init__(self, name, age...

31得票6回答
不使用Hadoop如何使用Parquet?

我想在我的项目中使用Parquet作为列式存储。但是,我不想依赖于Hadoop/HDFS库。是否可以在HDFS之外使用Parquet?或者最小的依赖是什么?

25得票4回答
在Spark中从Parquet文件中读取特定列的高效方法

如何在Spark中从具有许多列的Parquet文件中仅读取子集列最有效?使用spark.read.format("parquet").load(<parquet>).select(...col1, col2)来完成这个任务是最好的方法吗?我还想使用类型安全的数据集与案例类来预定义我...

21得票2回答
使用Java将Json对象转换为Parquet格式而不转换为AVRO的方法(不使用Spark,Hive,Pig,Impala)

我有一个场景,需要用Java将以Json对象形式存在的消息转换为Apache Parquet格式。有任何示例代码或例子都会很有帮助。据我所知,要将消息转换为Parquet,需要使用Hive、Pig或Spark。但我需要在不涉及这些工具的情况下,仅通过Java将其转换为Parquet格式。

14得票3回答
如何将一个500GB的SQL表格转换成Apache Parquet格式?

也许这已经有很好的文档记录了,但我非常困惑如何做到这一点(有许多Apache工具)。 当我创建一个SQL表时,我使用以下命令来创建表:CREATE TABLE table_name( column1 datatype, column2 datatype, column3 d...

65得票10回答
如何在R中读取Parquet文件并将其转换为R DataFrame?

我希望能够用R编程语言处理Apache Parquet文件(在我的情况下,这些文件是由Spark生成的)。 是否有可用的R读取器?或者正在开发中吗? 如果没有,最快的方法是什么?注意:有Java和C++绑定:https://github.com/apache/parquet-mr

9得票2回答
Spark写入Parquet文件没有生成任何文件,只有_SUCCESS。

该应用程序包括: val stats = sqlContext.sql("select id, n from myTable") stats.write.parquet("myTable.parquet") 这将创建名为 myTable.parquet 的文件夹,除了一个空的_SUCC...

14得票2回答
Spark SQL中的saveAsTable在指定分区时与Hive不兼容。

在使用Spark SQL进行分区时,保存Parquet表格可能会遇到一些特殊情况。#schema definitioin final StructType schema = DataTypes.createStructType(Arrays.asList( DataTypes.crea...