如何迭代Scala中的WrappedArray?(Spark)

10

我执行以下操作:

val tempDict = sqlContext.sql("select words.pName_token,collect_set(words.pID) as docids 
                               from words
                               group by words.pName_token").toDF()

val wordDocs = tempDict.filter(newDict("pName_token")===word)

val listDocs = wordDocs.map(t => t(1)).collect()

listDocs: Array

[Any] = Array(WrappedArray(123, 234, 205876618, 456))

我的问题是如何遍历这个包装数组或将其转换为列表?
对于listDocs,我得到的选项是applyasInstanceOfcloneisInstanceOflengthtoStringupdate
我该怎么做?
1个回答

9
这里有一种解决方法。
import org.apache.spark.sql.Row
import org.apache.spark.sql.functions._
import scala.collection.mutable.WrappedArray

val data = Seq((Seq(1,2,3),Seq(4,5,6),Seq(7,8,9)))
val df = sqlContext.createDataFrame(data)
val first = df.first

// use a pattern match to deferral the type
val mapped = first.getAs[WrappedArray[Int]](0)

// now we can use it like normal collection
mapped.mkString("\n")

// get rows where has array
val rows = df.collect.map {
    case Row(a: Seq[Any], b: Seq[Any], c: Seq[Any]) => 
        (a, b, c)
}
rows.mkString("\n")

实际上我已经这样做了,这似乎解决了我的问题: val arrDocs = listDocs(0)val temp = arrDocs.asInstanceOf[mutable.WrappedArray[Long]] 现在temp基本上给了我一个迭代器。 - boY
谢谢@boY,我更新了答案。之前的有点啰嗦。 - Rockie Yang
我在我的代码中遇到了WrappedArray的问题,并且已经成功用Seq[Int]替换了它。 - jspooner

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接