我有一个包含经纬度列的CSV文档要加载到SQLContext中。
val sqlContext = new org.apache.spark.sql.SQLContext(sc);
val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "false").option("delimiter","\t").schema(customSchema).load(inputFile);
CSV示例
metro_code, resolved_lat, resolved_lon
602, 40.7201, -73.2001
我正在尝试找出最佳的方法来添加新列并计算每行的GeoHex。使用geohex包哈希纬度和经度非常容易。我认为需要运行parallelize方法或者像一些例子中那样将函数传递给withColumn。