得票数最多 'parquet' 问题

关联标签

205得票5回答

Apache Parquet的一些特点包括： - 自描述性 - 列式存储格式 - 与编程语言无关与Apache Avro、Sequence Files、RC File等相比，我想了解这些格式的概述。我已经阅读了《如何使用Hadoop文件格式进行Impala工作》（链接1），它对这些格式提...

200得票2回答

两者都是用于数据分析系统中的列式（磁盘）存储格式。这两种格式均已集成在Apache Arrow（Python中的pyarrow包）中，并旨在与内存中的列式Arrow相对应。这两种格式有何区别？在可能的情况下，使用Pandas时是否总是优先选择Feather？ Feather和Parq...

166得票8回答

如何在没有设置像Hadoop或Spark这样的集群计算基础设施的情况下，将一个适度大小的Parquet数据集读入内存的Pandas DataFrame？我想用一台笔记本电脑上的简单Python脚本将数据读入内存。数据不驻留在HDFS上。它可能位于本地文件系统或S3中。我不想启动和配置其...

157得票1回答

我在研究一种加快我内存密集型前端可视化应用程序的方法。我看到有些人推荐使用Apache Arrow，但是在研究时，我对Parquet和Arrow之间的区别感到困惑。它们都是列化数据结构。最初我认为parquet是用于磁盘的，而arrow是用于内存格式的。然而，我刚刚了解到，您也可以像abc...

130得票6回答

我计划在我的Hadoop相关项目中使用一个Hadoop文件格式。我了解到，parquet对基于列的查询高效，而avro适用于全扫描或需要所有列的数据时！在我继续选择其中一个文件格式之前，我想了解其中一个比另一个的缺点/不足之处。有人可以用简单的语言解释一下吗？

122得票13回答

我该如何在命令行中检查Parquet文件的内容？目前我所看到的唯一选项是：$ hadoop fs -get my-path local-file $ parquet-tools head local-file | less 我希望避免创建local-file并且以JSON格式查看文件内容，...

95得票6回答

我正在对Hive可用的存储格式进行一些测试，主要选择Parquet和ORC。其中，在默认压缩方式下使用了ORC一次，在使用Snappy压缩方式下使用了ORC一次。我已经阅读了许多文件，这些文件指出Parquet在时间/空间复杂度方面比ORC更好，但是我的测试结果与我阅读的文件相反。以下是我...

79得票5回答

我进行了一些搜索，但没有找到完整的fastparquet和pyarrow比较的资料。我找到了这篇博客文章（一个速度的基本比较）。还有一个在github上的讨论声称使用fastparquet创建的文件不支持AWS-athena（顺便问一下，现在还是这样吗？）何时/为什么会使用其中之一...

69得票11回答

我找不到任何关于Apache Parquet文件的简明解释，例如：它们是什么？我需要使用Hadoop或HDFS来查看/创建/存储它们吗？我该如何创建Parquet文件？我该如何查看Parquet文件？欢迎提供有关这些问题的任何帮助。

65得票10回答

我希望能够用R编程语言处理Apache Parquet文件（在我的情况下，这些文件是由Spark生成的）。是否有可用的R读取器？或者正在开发中吗？如果没有，最快的方法是什么？注意：有Java和C++绑定：https://github.com/apache/parquet-mr