我想循环遍历Hadoop目录中的所有文本文件,并计算单词“error”的出现次数。是否可以使用Apache Spark Scala API的
hadoop fs -ls /users/ubuntu/
列出目录中的所有文件?从给定的第一个示例中,Spark上下文似乎只能通过类似以下方式逐个访问文件:val file = spark.textFile("hdfs://target_load_file.txt")
在我的问题中,我不知道HDFS文件夹中有多少个文件或它们的名称。查看了Spark上下文文档,但找不到这种功能。
在我的问题中,我不知道HDFS文件夹中有多少个文件或它们的名称。查看了Spark上下文文档,但找不到这种功能。
sc.wholeTextFiles
。参见https://dev59.com/kYnca4cB1Zd3GeqP_35G,几乎是相同的问题。 - Daniel Darabos