最新 'snappy' 问题 - 第3页

关联标签

9得票3回答

如何在Python中打开.snappy.parquet文件？

我该如何在Python 3.5中打开一个 .snappy.parquet 文件？目前，我使用了以下代码： import numpy import pyarrow filename = "/Users/T/Desktop/data.snappy.parquet" df = pyarrow....

pythonparquetsnappy

22得票4回答

lz4、lz4_hc、blosc、snappy和fastlz之间的比较

我需要在一分钟内使用最佳压缩比将大小为500 MB的大文件进行压缩。我已经找到了适合我的以下算法: lz4 lz4_hc snappy quicklz blosc 请问有人能够比较这些算法在速度和压缩比之间的差异吗？

snappylossless-compressionlz4

8得票2回答

R箭头: 错误: 不支持编解码器 'snappy'

我一直在使用最新版本的Rarrow包(arrow_2.0.0.20201106)，该包支持直接读写AWS S3(这太棒了)。当我写入并读取自己的文件时似乎没有问题(请参见下文)： write_parquet(iris, "iris.parquet") system("aws s3 mv ...

rsnappyapache-arrow

8得票1回答

导入Python中的fastparquet时出现了与snappy相关的错误。

我已经在我的 EC2 服务器上安装了以下模块，该服务器已经安装了 Python (3.6) 和 Anaconda： snappy pyarrow s3fs fastparquet 除了 fastparquet 之外，所有其他模块都可以成功导入。当我尝试导入 fastparquet 时，...

pythonanacondacondasnappyfastparquet

11得票2回答

LZ4库解压缩数据上限大小估算

我正在使用LZ4库，但在解压数据时遇到了问题。int LZ4_decompress_safe (const char* source, char* dest, int compressedSize, int maxDecompressedSize); 我想估算最大解压数据大小，但我找不到反向函...

ccompressionsnappylz4

13得票1回答

如何解压以snappy结尾的Hadoop reduce输出文件？

我们的Hadoop集群默认使用snappy编解码器。 Hadoop作业reduce输出文件名称类似于part-r-00000.snappy。由于JSnappy需要以SNZ开头，而reduce输出文件以一些字节0开头，因此JSnappy无法解压缩该文件。您如何解压该文件？

hadoopsnappy

7得票3回答

火花返回错误libsnappyjava.so:无法从共享对象映射段：操作不允许。

我刚刚将Spark 1.6.0提取并设置到一个新安装的Hadoop 2.6.0和Hive 0.14的环境中。我已经验证了示例中Hive、Beeline和MapReduce的正常运行。然而，一旦我在Spark-Shell中运行sc.textfile()，它就会返回一个错误： $ spark...

javahadoopapache-sparkhivesnappy

7得票6回答

Hadoop MapReduce: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z （注：这是一个提问标题，不需要回答）

我将尝试从一个map-reduce作业中编写一个快速块压缩序列文件。我使用的是hadoop 2.0.0-cdh4.5.0和snappy-java 1.0.4.1。这是我的代码： package jinvestor.jhouse.mr; import java.io.ByteArrayO...

javahadoopmapreducesequencefilesnappy

44得票7回答

使用Python编写Parquet文件的方法？

我在寻找一种能够使用Python编写Parquet文件的库，最好还能与Snappy或类似的压缩机制结合使用。目前我找到的唯一方法是使用Spark的pyspark.sql.DataFrame Parquet支持。我有一些脚本需要写入Parquet文件，但这些脚本不是Spark作业。是否存...

pythonapache-sparkapache-spark-sqlparquetsnappy

15得票2回答

Spark + Parquet + Snappy：Spark在洗牌数据后整体压缩比率下降

社区！请帮助我了解如何在Spark中获得更好的压缩比？让我描述一下场景：我有一个数据集，在HDFS上称之为产品，使用Sqoop ImportTool作为parquet文件使用编解码器snappy导入。导入结果，我有100个文件，总大小为46 GB du，文件大小不同（最小11MB...

apache-sparkapache-spark-sqlparquetsnappy