我希望从hdfs位置读取一堆文本文件,并使用Spark对其进行迭代映射。
JavaRDD<String> records = ctx.textFile(args[1], 1);
只能一次读取一个文件。
我想读取多个文件并将它们作为单个RDD处理。怎么做呢?
我希望从hdfs位置读取一堆文本文件,并使用Spark对其进行迭代映射。
JavaRDD<String> records = ctx.textFile(args[1], 1);
只能一次读取一个文件。
我想读取多个文件并将它们作为单个RDD处理。怎么做呢?
sc.textFile("/my/dir1,/my/paths/part-00[0-5]*,/another/dir,/a/specific/file")
正如Nick Chammas所指出的那样,这是Hadoop的FileInputFormat
的一种暴露方式,因此这也适用于Hadoop(和Scalding)。
使用union
如下:
val sc = new SparkContext(...)
val r1 = sc.textFile("xxx1")
val r2 = sc.textFile("xxx2")
...
val rdds = Seq(r1, r2, ...)
val bigRdd = sc.union(rdds)
那么bigRdd
就是包含所有文件的RDD。
你可以使用单个textFile调用来读取多个文件。Scala:
sc.textFile(','.join(files))
sc.textFile(files.mkString(","))
。 - Davos您可以使用这个功能。
首先,您可以获取S3路径的缓冲区/列表:
import scala.collection.JavaConverters._
import java.util.ArrayList
import com.amazonaws.services.s3.AmazonS3Client
import com.amazonaws.services.s3.model.ObjectListing
import com.amazonaws.services.s3.model.S3ObjectSummary
import com.amazonaws.services.s3.model.ListObjectsRequest
def listFiles(s3_bucket:String, base_prefix : String) = {
var files = new ArrayList[String]
//S3 Client and List Object Request
var s3Client = new AmazonS3Client();
var objectListing: ObjectListing = null;
var listObjectsRequest = new ListObjectsRequest();
//Your S3 Bucket
listObjectsRequest.setBucketName(s3_bucket)
//Your Folder path or Prefix
listObjectsRequest.setPrefix(base_prefix)
//Adding s3:// to the paths and adding to a list
do {
objectListing = s3Client.listObjects(listObjectsRequest);
for (objectSummary <- objectListing.getObjectSummaries().asScala) {
files.add("s3://" + s3_bucket + "/" + objectSummary.getKey());
}
listObjectsRequest.setMarker(objectListing.getNextMarker());
} while (objectListing.isTruncated());
//Removing Base Directory Name
files.remove(0)
//Creating a Scala List for same
files.asScala
}
现在将此列表对象传递给以下代码片段,注意:sc是SQLContext的一个对象
var df: DataFrame = null;
for (file <- files) {
val fileDf= sc.textFile(file)
if (df!= null) {
df= df.unionAll(fileDf)
} else {
df= fileDf
}
}
现在你有了最终的统一RDD,即df
可选的,你还可以将它重新分区成一个单独的大RDD
val files = sc.textFile(filename, 1).repartition(1)
import glob
from pyspark import SparkContext
SparkContext.stop(sc)
sc = SparkContext("local","example") # if running locally
sqlContext = SQLContext(sc)
for filename in glob.glob(Data_File + "/*"):
Spark_Full += sc.textFile(filename).keyBy(lambda x: filename)
输出:数组,每个条目都包含一个元组,使用文件名作为键,并且值等于文件的每一行。(技术上讲,使用这种方法,您也可以使用不同的键,而不是实际的文件路径名称-可能是哈希表示,以节省内存)。例如:
[('/home/folder_with_text_files/file1.txt', 'file1_contents_line1'), ('/home/folder_with_text_files/file1.txt', 'file1_contents_line2'), ('/home/folder_with_text_files/file1.txt', 'file1_contents_line3'), ('/home/folder_with_text_files/file2.txt', 'file2_contents_line1'), ...]
您也可以将其重新组合成一系列行:
Spark_Full.groupByKey().map(lambda x: (x[0], list(x[1]))).collect()
注:上述代码为IT技术相关内容,涉及Spark编程语言。
[('/home/folder_with_text_files/file1.txt', ['file1_contents_line1', 'file1_contents_line2','file1_contents_line3']),
('/home/folder_with_text_files/file2.txt', ['file2_contents_line1'])]
或者将整个文件重新组合成单个字符串(在此示例中,结果与从wholeTextFiles获取的结果相同,但是filepathing中的字符串“file:”已被剥离):
Spark_Full.groupByKey()。map(lambda x:(x [0],“”。join(list(x [1]))))。collect()
Spark_Full += sc.textFile(filename).keyBy(lambda x: filename)
时,我遇到了错误,即 TypeError: 'PipelinedRDD' object is not iterable
。我的理解是,该行代码创建了一个 RDD,该 RDD 是不可变的,所以我想知道您是如何将其追加到另一个变量中的? - KartikKannapurJavaRDD<String , String> records = sc.wholeTextFiles("path of your directory")
在这里,您将获得文件的路径和文件内容。因此,您可以一次执行整个文件的任何操作,从而节省开销。
使用sc.textFile
方法的所有答案都是正确的。
我只是想知道为什么不使用wholeTextFiles
方法。例如,在这种情况下...
val minPartitions = 2
val path = "/pathtohdfs"
sc.wholeTextFiles(path,minPartitions)
.flatMap{case (path, text)
...
一个限制是,我们必须加载小文件,否则性能会变差,可能会导致OOM。
注意:
更多参考请访问
sc.wholeTextFiles(文件夹)。flatMap ...
- Evhz尝试这个 接口用于将 DataFrame 写入外部存储系统(例如文件系统、键值存储等)。使用 DataFrame.write() 来访问这个接口。
从版本1.4开始新增。
csv(path, mode=None, compression=None, sep=None, quote=None, escape=None, header=None, nullValue=None, escapeQuotes=None, quoteAll=None, dateFormat=None, timestampFormat=None) 以指定的路径将 DataFrame 的内容保存为 CSV 格式。
参数: path - Hadoop 支持的任何文件系统中的路径 mode - 当数据已经存在时,指定保存操作的行为。
追加:将此DataFrame的内容追加到现有数据中。 覆盖:覆盖现有数据。 忽略:如果数据已经存在,则静默忽略此操作。 错误(默认情况):如果数据已经存在,则引发异常。 compression - 保存到文件时要使用的压缩编解码器。这可以是已知的不区分大小写的缩写名称之一(none、bzip2、gzip、lz4、snappy和deflate)。 sep - 设置单个字符作为每个字段和值的分隔符。如果未设置None,则使用默认值“,”。 quote - 设置用于转义引用值的单个字符,其中分隔符可能是值的一部分。如果未设置None,则使用默认值“”。如果您想关闭引用,您需要设置一个空字符串。 escape - 设置用于在已经引用的值内转义引号的单个字符。如果未设置None,则使用默认值“\”。 escapeQuotes - 表示是否应始终将包含引号的值括在引号中的标志。如果未设置None,则使用默认值true,转义所有包含引号字符的值。 quoteAll - 表示是否始终应将所有值括在引号中的标志。如果未设置None,则使用默认值false,仅转义包含引号字符的值。 header - 将列名作为第一行写入。如果未设置None,则使用默认值false。 nullValue - 设置null值的字符串表示形式。如果未设置None,则使用默认值空字符串。 dateFormat - 设置表示日期格式的字符串。自定义日期格式遵循java.text.SimpleDateFormat中的格式。这适用于日期类型。如果未设置None,则使用默认值yyyy-MM-dd。 timestampFormat - 设置表示时间戳格式的字符串。自定义日期格式遵循java.text.SimpleDateFormat中的格式。这适用于时间戳类型。如果未设置None,则使用默认值yyyy-MM-dd'T'HH:mm:ss.SSSZZ。
rdd = textFile('/data/{1.txt,2.txt}')
Path
选项都适用。 - Nick Chammassc.wholeTextFiles
对于非按行分隔的数据很方便。 - Michal Čizmaziasc.textFile(multipleCommaSeparatedDirs,320)
,它会导致总共有19430
个任务而不是320
个……它的行为就像union
,从非常低的并行性中也会导致疯狂数量的任务。 - lisak