我将尝试从文本文件中读取字符串,但我想根据特定的大小限制每行。例如;
这是我代表文件的方式。
什么是最佳性能的实现方式?
这是我代表文件的方式。
当尝试使用sc.textFile读取此文件时,RDD将显示为以下内容。aaaaa\nbbb\nccccc
scala> val rdd = sc.textFile("textFile")
scala> rdd.collect
res1: Array[String] = Array(aaaaa, bbb, ccccc)
但我想限制这个RDD的大小。例如,如果限制为3,则应该得到像这样的结果。
Array[String] = Array(aaa, aab, bbc, ccc, c)
什么是最佳性能的实现方式?
n
个字符组?在Spark之外预处理为长度为n
的行,然后使用textFile
读取几乎肯定会更快。 - The Archetypal Paul