我正在尝试使用Databricks spark-csv包和航班数据集,从EMR Spark集群上的S3 CSV源创建一个DataFrame:
这不会在一个由4个
from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('s3n://h2o-airlines-unpacked/allyears.csv')
df.first()
这不会在一个由4个
m3.xlarge
组成的集群上终止。我正在寻找一些建议,以在PySpark中从S3的CSV文件创建DataFrame
。或者,我已经尝试将文件放在HDFS上并从HFDS读取,但也没有终止。该文件并不是特别大(12 GB)。
parserLib
选项设置为univocity
吗? - rchukh