95得票6回答
Parquet与ORC与使用Snappy的ORC比较

我正在对Hive可用的存储格式进行一些测试,主要选择Parquet和ORC。其中,在默认压缩方式下使用了ORC一次,在使用Snappy压缩方式下使用了ORC一次。 我已经阅读了许多文件,这些文件指出Parquet在时间/空间复杂度方面比ORC更好,但是我的测试结果与我阅读的文件相反。 以下是我...

44得票7回答
使用Python编写Parquet文件的方法?

我在寻找一种能够使用Python编写Parquet文件的库,最好还能与Snappy或类似的压缩机制结合使用。 目前我找到的唯一方法是使用Spark的pyspark.sql.DataFrame Parquet支持。 我有一些脚本需要写入Parquet文件,但这些脚本不是Spark作业。是否存...

40得票5回答
Spark SQL - gzip、snappy和lzo压缩格式之间的区别

我正在尝试使用Spark SQL编写parquet文件。 默认情况下,Spark SQL支持gzip,但它也支持其他压缩格式,如snappy和lzo。 这些压缩格式有什么区别?

37得票8回答
不满足的链接错误:/tmp/snappy-1.1.4-libsnappyjava.so 加载共享库 ld-linux-x86-64.so.2 时出错:没有那个文件或目录。

我正在尝试在Kubernetes中运行一个Kafka Streams应用程序。当我启动Pod时,会出现以下异常:Exception in thread "streams-pipe-e19c2d9a-d403-4944-8d26-0ef27ed5c057-StreamThread-1" java...

28得票3回答
快速压缩格式中不支持使用'SNAPPY'解压。

我试图使用fastparquet打开一个文件,但是出现了错误:RuntimeError: Decompression 'SNAPPY' not available. Options: ['GZIP', 'UNCOMPRESSED'] 我已经安装了以下内容并重新启动了解释器:python ...

22得票4回答
lz4、lz4_hc、blosc、snappy和fastlz之间的比较

我需要在一分钟内使用最佳压缩比将大小为500 MB的大文件进行压缩。我已经找到了适合我的以下算法: lz4 lz4_hc snappy quicklz blosc 请问有人能够比较这些算法在速度和压缩比之间的差异吗?

19得票4回答
Snappy是可分割的还是不可分割的?

根据此 Cloudera 帖子,Snappy 是可分割的。 对于 MapReduce,如果您需要压缩的数据可以被分割,则 BZip2、LZO 和 Snappy 格式是可以分割的,但 GZip 不行。可分割性与 HBase 数据无关。 但从 hadoop definitive guide 中...

18得票4回答
如何在Windows 10上安装snappy C库以与Anaconda中的python-snappy一起使用?

我想在Windows 10上的Anaconda 2安装中使用pip安装python的parquet。 在安装过程中,我遇到了这里描述的错误,即安装程序无法找到snappy-c.h。 回答中没有提到如何在Windows上安装它。 我从http://google.github.io/sn...

15得票2回答
Spark + Parquet + Snappy:Spark在洗牌数据后整体压缩比率下降

社区! 请帮助我了解如何在Spark中获得更好的压缩比? 让我描述一下场景: 我有一个数据集,在HDFS上称之为产品,使用Sqoop ImportTool作为parquet文件使用编解码器snappy导入。导入结果,我有100个文件,总大小为46 GB du,文件大小不同(最小11MB...

14得票5回答
将pandas的df.to_parquet写入多个较小文件

是否可以使用Pandas的DataFrame.to_parquet功能将写入拆分为多个大约所需大小的文件? 我有一个非常大的DataFrame(100M x 100),并且正在使用df.to_parquet('data.snappy',engine ='pyarrow',compression...