我有一个RDD,它有非常多的列(例如,数百个),我该如何在这个RDD末尾添加一列?
例如,如果我的RDD如下所示:
123, 523, 534, ..., 893
536, 98, 1623, ..., 98472
537, 89, 83640, ..., 9265
7297, 98364, 9, ..., 735
......
29, 94, 956, ..., 758
如何添加一列,其值为第二列和第三列的总和?
非常感谢。
我有一个RDD,它有非常多的列(例如,数百个),我该如何在这个RDD末尾添加一列?
例如,如果我的RDD如下所示:
123, 523, 534, ..., 893
536, 98, 1623, ..., 98472
537, 89, 83640, ..., 9265
7297, 98364, 9, ..., 735
......
29, 94, 956, ..., 758
如何添加一列,其值为第二列和第三列的总和?
非常感谢。
您不必使用Tuple
*对象来为RDD
添加新列。
可以通过映射每一行来完成,取其原始内容加上要附加的元素,例如:
val rdd = ...
val withAppendedColumnsRdd = rdd.map(row => {
val originalColumns = row.toSeq.toList
val secondColValue = originalColumns(1).asInstanceOf[Int]
val thirdColValue = originalColumns(2).asInstanceOf[Int]
val newColumnValue = secondColValue + thirdColValue
Row.fromSeq(originalColumns :+ newColumnValue)
// Row.fromSeq(originalColumns ++ List(newColumnValue1, newColumnValue2, ...)) // or add several new columns
})
您有一个由元组4组成的RDD,应用map并将其转换为元组5。
val rddTuple4RDD = ...........
val rddTuple5RDD = rddTuple4RDD.map(r=> Tuple5(rddTuple4._1, rddTuple4._2, rddTuple4._3, rddTuple4._4, rddTuple4._2 + rddTuple4._3))