Hadoop MapReduce: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z (注:这是一个提问标题,不需要回答)

7
我将尝试从一个map-reduce作业中编写一个快速块压缩序列文件。我使用的是hadoop 2.0.0-cdh4.5.0和snappy-java 1.0.4.1。
这是我的代码:
package jinvestor.jhouse.mr;

import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.OutputStream;
import java.util.Arrays;
import java.util.List;

import jinvestor.jhouse.core.House;
import jinvestor.jhouse.core.util.HouseAvroUtil;
import jinvestor.jhouse.download.HBaseHouseDAO;

import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.SnappyCodec;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.apache.mahout.math.DenseVector;
import org.apache.mahout.math.NamedVector;
import org.apache.mahout.math.VectorWritable;

/**
 * Produces mahout vectors from House entries in HBase.
 * 
 * @author Michael Scott Knapp
 * 
 */
public class HouseVectorizer {

    private final Configuration configuration;
    private final House minimumHouse;
    private final House maximumHouse;

    public HouseVectorizer(final Configuration configuration,
            final House minimumHouse, final House maximumHouse) {
        this.configuration = configuration;
        this.minimumHouse = minimumHouse;
        this.maximumHouse = maximumHouse;
    }

    public void vectorize() throws IOException, ClassNotFoundException, InterruptedException {
        JobConf jobConf = new JobConf();
        jobConf.setMapOutputKeyClass(LongWritable.class);
        jobConf.setMapOutputValueClass(VectorWritable.class);

        // we want the vectors written straight to HDFS,
        // the order does not matter.
        jobConf.setNumReduceTasks(0);

        Path outputDir = new Path("/home/cloudera/house_vectors");
        FileSystem fs = FileSystem.get(configuration);
        if (fs.exists(outputDir)) {
            fs.delete(outputDir, true);
        }

        FileOutputFormat.setOutputPath(jobConf, outputDir);

        // I want the mappers to know the max and min value
        // so they can normalize the data.
        // I will add them as properties in the configuration,
        // by serializing them with avro.
        String minmax = HouseAvroUtil.toBase64String(Arrays.asList(minimumHouse,
                maximumHouse));
        jobConf.set("minmax", minmax);

        Job job = Job.getInstance(jobConf);
        Scan scan = new Scan();
        scan.addFamily(Bytes.toBytes("data"));
        TableMapReduceUtil.initTableMapperJob("homes", scan,
                HouseVectorizingMapper.class, LongWritable.class,
                VectorWritable.class, job);
        job.setOutputFormatClass(SequenceFileOutputFormat.class);
        job.setOutputKeyClass(LongWritable.class);
        job.setOutputValueClass(VectorWritable.class);
        job.setMapOutputKeyClass(LongWritable.class);
        job.setMapOutputValueClass(VectorWritable.class);

        SequenceFileOutputFormat.setOutputCompressionType(job, SequenceFile.CompressionType.BLOCK);
        SequenceFileOutputFormat.setOutputCompressorClass(job, SnappyCodec.class);
        SequenceFileOutputFormat.setOutputPath(job, outputDir);
        job.getConfiguration().setClass("mapreduce.map.output.compress.codec", 
                SnappyCodec.class, 
                CompressionCodec.class);

        job.waitForCompletion(true);
    }

当我运行它时,我得到了这个:
java.lang.Exception: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:401)
Caused by: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z
    at org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy(Native Method)
    at org.apache.hadoop.io.compress.SnappyCodec.checkNativeCodeLoaded(SnappyCodec.java:62)
    at org.apache.hadoop.io.compress.SnappyCodec.getCompressorType(SnappyCodec.java:127)
    at org.apache.hadoop.io.compress.CodecPool.getCompressor(CodecPool.java:104)
    at org.apache.hadoop.io.compress.CodecPool.getCompressor(CodecPool.java:118)
    at org.apache.hadoop.io.SequenceFile$Writer.init(SequenceFile.java:1169)
    at org.apache.hadoop.io.SequenceFile$Writer.<init>(SequenceFile.java:1080)
    at org.apache.hadoop.io.SequenceFile$BlockCompressWriter.<init>(SequenceFile.java:1400)
    at org.apache.hadoop.io.SequenceFile.createWriter(SequenceFile.java:274)
    at org.apache.hadoop.io.SequenceFile.createWriter(SequenceFile.java:527)
    at org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat.getSequenceWriter(SequenceFileOutputFormat.java:64)
    at org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat.getRecordWriter(SequenceFileOutputFormat.java:75)
    at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.<init>(MapTask.java:617)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:737)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:338)
    at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:233)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:744)

如果我注释掉这些行,那么我的测试就会通过:
SequenceFileOutputFormat.setOutputCompressionType(job, SequenceFile.CompressionType.BLOCK);
        SequenceFileOutputFormat.setOutputCompressorClass(job, SnappyCodec.class);
        job.getConfiguration().setClass("mapreduce.map.output.compress.coded", 
                SnappyCodec.class, 
                CompressionCodec.class);

然而,我真的想在我的序列文件中使用snappy压缩。请问有人可以解释一下我做错了什么吗?


实际上你需要设置它。你得到了连接错误。你注释掉了那几行代码,程序才执行成功。这给你什么启示吗? - Chiron
我添加了这个,但是没有改变任何东西:System.setProperty("java.library.path",System.getProperty("java.library.path")+ ":/lib/hadoop/native"); - msknapp
取决于您的安装。/lib/hadoop/native是一个例子。 - Chiron
我的Maven依赖项与我的Hadoop lib目录中的内容完全匹配,我非常怀疑这是问题所在。我刚刚检查了一下,我的snappy jar和hadoop jars与我的maven pom文件中的版本完全相同。无论如何,我仍然尝试了您的建议,将/usr/lib/hadoop/lib、/usr/lib/hadoop-mapreduce/lib和/usr/lib/hadoop-0.20-mapreduce/lib作为系统属性的前三个条目。但这并没有改变任何东西。 - msknapp
切换到DefaultCodec可以工作,但现在它正在使用deflate算法,这不如snappy快。 - msknapp
显示剩余5条评论
6个回答

9

以下是从Cloudera Communities中找到的信息:

  1. 确保LD_LIBRARY_PATHJAVA_LIBRARY_PATH包含具有libsnappy.so**文件的本机目录路径。
  2. 确保在SPARK环境(spark-env.sh)中已导出LD_LIBRARY_PATH和JAVA_LIBRARY path。

例如,我使用Hortonworks HDP,并在我的spark-env.sh中拥有以下配置:

export JAVA_LIBRARY_PATH=$JAVA_LIBRARY_PATH:/usr/hdp/2.2.0.0-2041/hadoop/lib/native
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/hdp/2.2.0.0-2041/hadoop/lib/native
export SPARK_YARN_USER_ENV="JAVA_LIBRARY_PATH=$JAVA_LIBRARY_PATH,LD_LIBRARY_PATH=$LD_LIBRARY_PATH"

我曾经遇到过类似的问题,我的是Java应用程序。将本地库路径添加到LD_LIBRARY_PATH中有助于解决该问题。我使用了 "export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/hadoop/lib/native" 命令,然后运行 "java -jar <application.jar>"。非常感谢! - sunitha
这对我没有解决问题。即使将libsnappy路径导出到上述两个库路径,仍然存在相同的错误。 - ely

2
请检查您的core-site.xml和mapred-site.xml文件,确保其中包含正确的属性和库文件夹路径。

core-site.xml

<property>
  <name>io.compression.codecs</name>
<value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

mapred-site.xml

 <property>
      <name>mapreduce.map.output.compress</name>
      <value>true</value>
    </property>

    <property>
     <name>mapred.map.output.compress.codec</name>  
     <value>org.apache.hadoop.io.compress.SnappyCodec</value>
    </property>


    <property>
      <name>mapreduce.admin.user.env</name>
      <value>LD_LIBRARY_PATH=/usr/hdp/2.2.0.0-1084/hadoop/lib/native</value>
    </property>

LD_LIBRARY_PATH - 必须包含 libsnappy.so 的路径。


0
我的问题是我的JRE没有包含适当的本地库。这可能是因为我将JDK从cloudera的预构建VM切换到了JDK 1.7,也可能不是。snappy .so文件在您的hadoop/lib/native目录中,JRE需要拥有它们。将它们添加到类路径似乎无法解决我的问题。我是这样解决的:
$ cd /usr/lib/hadoop/lib/native
$ sudo cp *.so /usr/java/latest/jre/lib/amd64/

然后我能够使用SnappyCodec类。不过你的路径可能会有所不同。

这似乎让我遇到了下一个问题:

Caused by: java.lang.RuntimeException: 本地snappy库不可用:SnappyCompressor未加载。

仍在努力解决这个问题。


2
各位,复制这些文件会导致问题,一旦您升级CDH版本。您需要在每次CDH升级时都将它们复制,并且相信我,到那时您已经忘记了自己复制了这些文件。正确的方法是使用LD_LIBRARY_PATH!您需要确保网关实例上它具有正确的值。在CDH中,可能已覆盖它。默认值通常很好。在远程执行此操作时,您可以使用java -cp ...然后设置-Djava.library.path。 - Niko

0

从 windows\system32 手动删除 hadoop.dll,然后设置 HADOOP_HOME=\hadoop-2.6.4 就可以了,太棒了!


0
如果您需要所有文件,而不仅仅是*.so文件。最好将该文件夹包含到您的路径中,而不是从那里复制库。之后,您需要重新启动MapReduce服务,以便使用新的库。
尼科

0
在我的情况下,您可以检查hive-conf文件:mapred-site.xml,并检查键:mapreduce.admin.user.env的值。
我在一个新的数据节点上进行了测试,在没有本地依赖项(libsnappy.so等)的机器上收到了未链接的buildSnappy错误。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接