得票数最多 'snappy' 问题

关联标签

95得票6回答

Parquet与ORC与使用Snappy的ORC比较

我正在对Hive可用的存储格式进行一些测试，主要选择Parquet和ORC。其中，在默认压缩方式下使用了ORC一次，在使用Snappy压缩方式下使用了ORC一次。我已经阅读了许多文件，这些文件指出Parquet在时间/空间复杂度方面比ORC更好，但是我的测试结果与我阅读的文件相反。以下是我...

hadoophiveparquetsnappyorc

44得票7回答

使用Python编写Parquet文件的方法？

我在寻找一种能够使用Python编写Parquet文件的库，最好还能与Snappy或类似的压缩机制结合使用。目前我找到的唯一方法是使用Spark的pyspark.sql.DataFrame Parquet支持。我有一些脚本需要写入Parquet文件，但这些脚本不是Spark作业。是否存...

pythonapache-sparkapache-spark-sqlparquetsnappy

40得票5回答

Spark SQL - gzip、snappy和lzo压缩格式之间的区别

我正在尝试使用Spark SQL编写parquet文件。默认情况下，Spark SQL支持gzip，但它也支持其他压缩格式，如snappy和lzo。这些压缩格式有什么区别？

apache-sparkgzipparquetsnappylzo

37得票8回答

不满足的链接错误：/tmp/snappy-1.1.4-libsnappyjava.so 加载共享库 ld-linux-x86-64.so.2 时出错：没有那个文件或目录。

我正在尝试在Kubernetes中运行一个Kafka Streams应用程序。当我启动Pod时，会出现以下异常：Exception in thread "streams-pipe-e19c2d9a-d403-4944-8d26-0ef27ed5c057-StreamThread-1" java...

javaapache-kafkaapache-kafka-streamssnappy

28得票3回答

快速压缩格式中不支持使用'SNAPPY'解压。

我试图使用fastparquet打开一个文件，但是出现了错误：RuntimeError: Decompression 'SNAPPY' not available. Options: ['GZIP', 'UNCOMPRESSED'] 我已经安装了以下内容并重新启动了解释器：python ...

python-3.xsnappyfastparquet

22得票4回答

lz4、lz4_hc、blosc、snappy和fastlz之间的比较

我需要在一分钟内使用最佳压缩比将大小为500 MB的大文件进行压缩。我已经找到了适合我的以下算法: lz4 lz4_hc snappy quicklz blosc 请问有人能够比较这些算法在速度和压缩比之间的差异吗？

snappylossless-compressionlz4

19得票4回答

Snappy是可分割的还是不可分割的？

根据此 Cloudera 帖子，Snappy 是可分割的。对于 MapReduce，如果您需要压缩的数据可以被分割，则 BZip2、LZO 和 Snappy 格式是可以分割的，但 GZip 不行。可分割性与 HBase 数据无关。但从 hadoop definitive guide 中...

hadoopsnappy

18得票4回答

如何在Windows 10上安装snappy C库以与Anaconda中的python-snappy一起使用？

我想在Windows 10上的Anaconda 2安装中使用pip安装python的parquet。在安装过程中，我遇到了这里描述的错误，即安装程序无法找到snappy-c.h。回答中没有提到如何在Windows上安装它。我从http://google.github.io/sn...

pythonpython-2.7installationanacondasnappy

15得票2回答

Spark + Parquet + Snappy：Spark在洗牌数据后整体压缩比率下降

社区！请帮助我了解如何在Spark中获得更好的压缩比？让我描述一下场景：我有一个数据集，在HDFS上称之为产品，使用Sqoop ImportTool作为parquet文件使用编解码器snappy导入。导入结果，我有100个文件，总大小为46 GB du，文件大小不同（最小11MB...

apache-sparkapache-spark-sqlparquetsnappy

14得票5回答

将pandas的df.to_parquet写入多个较小文件

是否可以使用Pandas的DataFrame.to_parquet功能将写入拆分为多个大约所需大小的文件？我有一个非常大的DataFrame（100M x 100），并且正在使用df.to_parquet（'data.snappy'，engine ='pyarrow'，compression...

pandassaveparquetpyarrowsnappy