我在HDFS上有两个文件,我想要按照员工ID这一列将这两个文件连接起来。
我试图简单地打印这些文件,以确保我们从HDFS正确读取了它们。
lines = sc.textFile("hdfs://ip:8020/emp.txt")
print lines.count()
我也尝试使用foreach和println函数,但无法显示文件数据。 我在使用Python,并且对Python和Spark都很陌生。
我在HDFS上有两个文件,我想要按照员工ID这一列将这两个文件连接起来。
我试图简单地打印这些文件,以确保我们从HDFS正确读取了它们。
lines = sc.textFile("hdfs://ip:8020/emp.txt")
print lines.count()
我也尝试使用foreach和println函数,但无法显示文件数据。 我在使用Python,并且对Python和Spark都很陌生。
这很容易,只需要执行collect操作。
但是必须确保所有数据都适合主节点的内存。my_rdd = sc.parallelize(xrange(10000000))
print my_rdd.collect()
# I use an exagerated number to remind you it is very large and won't fit the memory in your master so collect wouldn't work
my_rdd = sc.parallelize(xrange(100000000000000000))
print my_rdd.take(100)
另一个使用 .ipynb 的示例: