当AggregateByKey在抽象类中时，无法编译

Question

当AggregateByKey在抽象类中时，无法编译

scalaapache-sparkcompiler-errorsabstract-class

4

我对Scala和Spark都很陌生，希望有人能解释一下为什么在抽象类中使用aggregateByKey会编译失败。这是我能想到的最简单的例子：

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

abstract class AbstractKeyCounter[K] {

  def keyValPairs(): RDD[(K, String)]

  def processData(): RDD[(K, Int)] = {
    keyValPairs().aggregateByKey(0)(
      (count, key) => count + 1,
      (count1, count2) => count1 + count2
    )
  }

}

class StringKeyCounter extends AbstractKeyCounter[String] {

  override def keyValPairs(): RDD[(String, String)] = {
    val sc = new SparkContext(new SparkConf().setMaster("local").setAppName("counter"))
    val data = sc.parallelize(Array("foo=A", "foo=A", "foo=A", "foo=B", "bar=C", "bar=D", "bar=D"))
    data.map(_.split("=")).map(v => (v(0), v(1)))
  }

}

这意味着：

Error:(11, 19) value aggregateByKey is not a member of org.apache.spark.rdd.RDD[(K, String)]
    keyValPairs().aggregateByKey(0)(
                  ^

如果我使用一个具体的类，它会编译并成功运行：

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

class StringKeyCounter {

  def processData(): RDD[(String, Int)] = {
    val sc = new SparkContext(new SparkConf().setMaster("local").setAppName("counter"))
    val data = sc.parallelize(Array("foo=A", "foo=A", "foo=A", "foo=B", "bar=C", "bar=D", "bar=D"))
    val keyValPairs = data.map(_.split("=")).map(v => (v(0), v(1)))

    keyValPairs.aggregateByKey(0)(
      (count, key) => count + 1,
      (count1, count2) => count1 + count2
    )
  }

}

我错过了什么？

- kpo

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Tzach Zohar · Accepted Answer

如果您更改：

abstract class AbstractKeyCounter[K] {

To:

abstract class AbstractKeyCounter[K : ClassTag] {

这将会编译通过。

为什么? aggregateByKey 是 PairRDDFunctions 的方法（你的RDD会被隐式转换为该类），具有以下签名：

class PairRDDFunctions[K, V](self: RDD[(K, V)])
  (implicit kt: ClassTag[K], vt: ClassTag[V], ord: Ordering[K] = null)

这意味着构造函数需要期望类型为ClassTag[K]和vt: ClassTag[V]的隐式值。你的抽象类不知道K是什么，因此无法提供匹配的隐式值。这意味着转换为PairRDDFunctions的隐式转换“失败”（编译器不执行转换），因此无法找到aggregateByKey方法。

添加[K: ClassTag]就是为抽象类构造函数添加一个隐式参数implicit kt: ClassTag[K]的简写形式，隐式参数将由编译器传递给PairRDDFunctions的构造函数。

更多关于ClassTags及其优点的信息，请参见这篇好文章。