205得票5回答
与其他格式相比,Apache Parquet格式有哪些优缺点?

Apache Parquet的一些特点包括: - 自描述性 - 列式存储格式 - 与编程语言无关 与Apache Avro、Sequence Files、RC File等相比,我想了解这些格式的概述。我已经阅读了《如何使用Hadoop文件格式进行Impala工作》(链接1),它对这些格式提...

200得票2回答
Feather和Parquet之间有什么区别?

两者都是用于数据分析系统中的列式(磁盘)存储格式。这两种格式均已集成在Apache Arrow(Python中的pyarrow包)中,并旨在与内存中的列式Arrow相对应。 这两种格式有何区别? 在可能的情况下,使用Pandas时是否总是优先选择Feather? Feather和Parq...

166得票8回答
如何将Parquet文件读入Pandas DataFrame?

如何在没有设置像Hadoop或Spark这样的集群计算基础设施的情况下,将一个适度大小的Parquet数据集读入内存的Pandas DataFrame? 我想用一台笔记本电脑上的简单Python脚本将数据读入内存。 数据不驻留在HDFS上。 它可能位于本地文件系统或S3中。 我不想启动和配置其...

157得票1回答
Apache Parquet和Arrow的区别

我在研究一种加快我内存密集型前端可视化应用程序的方法。我看到有些人推荐使用Apache Arrow,但是在研究时,我对Parquet和Arrow之间的区别感到困惑。 它们都是列化数据结构。最初我认为parquet是用于磁盘的,而arrow是用于内存格式的。然而,我刚刚了解到,您也可以像abc...

130得票6回答
Avro和Parquet的比较

我计划在我的Hadoop相关项目中使用一个Hadoop文件格式。 我了解到,parquet对基于列的查询高效,而avro适用于全扫描或需要所有列的数据时! 在我继续选择其中一个文件格式之前,我想了解其中一个比另一个的缺点/不足之处。 有人可以用简单的语言解释一下吗?

122得票13回答
从命令行检查Parquet

我该如何在命令行中检查Parquet文件的内容? 目前我所看到的唯一选项是:$ hadoop fs -get my-path local-file $ parquet-tools head local-file | less 我希望避免创建local-file并且以JSON格式查看文件内容,...

95得票6回答
Parquet与ORC与使用Snappy的ORC比较

我正在对Hive可用的存储格式进行一些测试,主要选择Parquet和ORC。其中,在默认压缩方式下使用了ORC一次,在使用Snappy压缩方式下使用了ORC一次。 我已经阅读了许多文件,这些文件指出Parquet在时间/空间复杂度方面比ORC更好,但是我的测试结果与我阅读的文件相反。 以下是我...

79得票5回答
fastparquet和pyarrow的比较?

我进行了一些搜索,但没有找到完整的fastparquet和pyarrow比较的资料。 我找到了这篇博客文章(一个速度的基本比较)。 还有一个在github上的讨论声称使用fastparquet创建的文件不支持AWS-athena(顺便问一下,现在还是这样吗?) 何时/为什么会使用其中之一...

69得票11回答
如何在Windows中查看Apache Parquet文件?

我找不到任何关于Apache Parquet文件的简明解释,例如: 它们是什么? 我需要使用Hadoop或HDFS来查看/创建/存储它们吗? 我该如何创建Parquet文件? 我该如何查看Parquet文件? 欢迎提供有关这些问题的任何帮助。

65得票10回答
如何在R中读取Parquet文件并将其转换为R DataFrame?

我希望能够用R编程语言处理Apache Parquet文件(在我的情况下,这些文件是由Spark生成的)。 是否有可用的R读取器?或者正在开发中吗? 如果没有,最快的方法是什么?注意:有Java和C++绑定:https://github.com/apache/parquet-mr