我正在尝试使用Python Spark库在Amazon EMR上读取文本文件。该文件位于主目录(/home/hadoop/wet0)中,但Spark似乎无法找到它。
疑问的行:
lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0])
错误:
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://ip-172-31-19-121.us-west-2.compute.internal:8020/user/hadoop/wet0;'
这个文件必须放在特定的目录里吗?我在AWS网站上找不到任何相关信息。