得票数最多 'sequencefile' 问题

关联标签

21得票3回答

Hadoop序列文件相对于HDFS文本文件的优势是什么？以什么方式Sequence file更有效率？可以将小文件组合并写入序列文件，但对于HDFS文本文件也可以这样做。需要了解两种方法之间的区别。我已经在谷歌上搜索了一段时间，如果能够澄清这个问题会很有帮助。

17得票1回答

我想使用Apache Spark从/向HDFS读写协议缓冲区消息。我找到了以下建议的方法： 1）使用Google的Gson库将protobuf消息转换为Json，然后通过SparkSql进行读/写。该解决方案在此链接中有所解释，但我认为这样做（转换为json）是额外的任务。 2）转换为P...

10得票2回答

如何使用Apache Spark将RDD [Array[Byte]]写入文件并再次读取？

7得票6回答

我将尝试从一个map-reduce作业中编写一个快速块压缩序列文件。我使用的是hadoop 2.0.0-cdh4.5.0和snappy-java 1.0.4.1。这是我的代码： package jinvestor.jhouse.mr; import java.io.ByteArrayO...

7得票1回答

我希望能够在hdfs文件系统上读取/写入图像，并利用hdfs本地性。我有一组图像，每个图像由以下内容组成： 2D数组的uint16 存储为xml文件的基本附加信息。我想在hdfs文件系统上创建一个存档，并使用spark分析该存档。目前，我正在努力找到在hdfs文件系统上存储数据...

7得票1回答

我希望能够创建一个自定义的InputFormat，用于读取序列文件，并公开记录所在文件的文件路径和偏移量。先来看一下使用情况：我有一个包含可变大小数据的序列文件。键大多无关紧要，而值则是多达几兆字节，包含各种不同的字段。我想在elasticsearch中索引其中一些字段，以及文件名和偏移量...