最新 'snappy' 问题

关联标签

13得票1回答

如何解压以snappy结尾的Hadoop reduce输出文件？

我们的Hadoop集群默认使用snappy编解码器。 Hadoop作业reduce输出文件名称类似于part-r-00000.snappy。由于JSnappy需要以SNZ开头，而reduce输出文件以一些字节0开头，因此JSnappy无法解压缩该文件。您如何解压该文件？

hadoopsnappy

7得票1回答

如何解压Mongo日志文件

我了解到，Mongodb创建的日志文件使用snappy压缩算法进行压缩。但是我无法解压这个压缩的日志文件。尝试解压时会出现错误。错误流中缺少snappy标识符我使用的Python代码如下： import collections import bson from bson.code...

pythonmongodbsnappyjournal

11得票2回答

LZ4库解压缩数据上限大小估算

我正在使用LZ4库，但在解压数据时遇到了问题。int LZ4_decompress_safe (const char* source, char* dest, int compressedSize, int maxDecompressedSize); 我想估算最大解压数据大小，但我找不到反向函...

ccompressionsnappylz4

95得票6回答

Parquet与ORC与使用Snappy的ORC比较

我正在对Hive可用的存储格式进行一些测试，主要选择Parquet和ORC。其中，在默认压缩方式下使用了ORC一次，在使用Snappy压缩方式下使用了ORC一次。我已经阅读了许多文件，这些文件指出Parquet在时间/空间复杂度方面比ORC更好，但是我的测试结果与我阅读的文件相反。以下是我...

hadoophiveparquetsnappyorc

7得票2回答

Cassandra 1.2在FreeBSD上初始化Snappy失败。

ERROR [WRITE-/10.10.35.30] 2013-06-19 23:15:56,907 CassandraDaemon.java (line 175) Exception in thread Thread[WRITE-/10.10.35.30,5,main] java.lang....

cassandrasnappy

14得票5回答

将pandas的df.to_parquet写入多个较小文件

是否可以使用Pandas的DataFrame.to_parquet功能将写入拆分为多个大约所需大小的文件？我有一个非常大的DataFrame（100M x 100），并且正在使用df.to_parquet（'data.snappy'，engine ='pyarrow'，compression...

pandassaveparquetpyarrowsnappy

8得票1回答

导入Python中的fastparquet时出现了与snappy相关的错误。

我已经在我的 EC2 服务器上安装了以下模块，该服务器已经安装了 Python (3.6) 和 Anaconda： snappy pyarrow s3fs fastparquet 除了 fastparquet 之外，所有其他模块都可以成功导入。当我尝试导入 fastparquet 时，...

pythonanacondacondasnappyfastparquet

7得票6回答

Hadoop MapReduce: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z （注：这是一个提问标题，不需要回答）

我将尝试从一个map-reduce作业中编写一个快速块压缩序列文件。我使用的是hadoop 2.0.0-cdh4.5.0和snappy-java 1.0.4.1。这是我的代码： package jinvestor.jhouse.mr; import java.io.ByteArrayO...

javahadoopmapreducesequencefilesnappy

19得票4回答

Snappy是可分割的还是不可分割的？

根据此 Cloudera 帖子，Snappy 是可分割的。对于 MapReduce，如果您需要压缩的数据可以被分割，则 BZip2、LZO 和 Snappy 格式是可以分割的，但 GZip 不行。可分割性与 HBase 数据无关。但从 hadoop definitive guide 中...

hadoopsnappy

8得票2回答

R箭头: 错误: 不支持编解码器 'snappy'

我一直在使用最新版本的Rarrow包(arrow_2.0.0.20201106)，该包支持直接读写AWS S3(这太棒了)。当我写入并读取自己的文件时似乎没有问题(请参见下文)： write_parquet(iris, "iris.parquet") system("aws s3 mv ...

rsnappyapache-arrow