查看Spark DataSet上的select()
函数,有各种生成的函数签名:
(c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....)
这似乎暗示我应该能够直接引用MyClass的成员并实现类型安全,但我不确定如何做到...
ds.select("member")
当然可以运行...看起来ds.select(_.member)
也可能以某种方式工作?
查看Spark DataSet上的select()
函数,有各种生成的函数签名:
(c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....)
这似乎暗示我应该能够直接引用MyClass的成员并实现类型安全,但我不确定如何做到...
ds.select("member")
当然可以运行...看起来ds.select(_.member)
也可能以某种方式工作?
Column
:
'name
$"name"
或 col(name)
expr("nvl(name, 'unknown') as renamed")
要从Column
获取TypedColumn
,只需使用myCol.as[T]
。
例如:ds.select(col("name").as[String])
ds.select(_.member)
的操作,只需要使用 map
:case class MyClass(member: MyMember, foo: A, bar: B)
val ds: DataSet[MyClass] = ???
val members: DataSet[MyMember] = ds.map(_.member)
编辑:不使用map
的原因。
更高效的方法是通过投影来完成相同的操作,而根本不需要使用map
。虽然您会失去编译时的类型检查,但作为交换,Catalyst查询引擎有机会执行更多优化。正如下面@Sim在评论中所暗示的那样,主要的优化围绕着不需要将MyClass
的整个内容从Tungsten内存空间反序列化到JVM堆内存中-只是为了调用访问器-然后将_.member
的结果重新序列化回Tungsten。
为了举一个更具体的例子,让我们像这样重新定义我们的数据模型:
// Make sure these are not nested classes
// (i.e. in a top level compilation units).
case class MyMember(something: Double)
case class MyClass(member: MyMember, foo: Int, bar: String)
这些需要是case
类,这样SQLImplicits.newProductEncoder[T <: Product]
就可以为我们提供一个隐式的Encoder[MyClass]
,Dataset[T]
API所需。
现在我们可以让上面的例子更加具体:
val ds: Dataset[MyClass] = Seq(MyClass(MyMember(1.0), 2, "three")).toDS()
val membersMapped: Dataset[Double] = ds.map(_.member.something)
explain()
方法:membersMapped.explain()
== Physical Plan ==
*(1) SerializeFromObject [input[0, double, false] AS value#19]
+- *(1) MapElements <function1>, obj#18: double
+- *(1) DeserializeToObject newInstance(class MyClass), obj#17: MyClass
+- LocalTableScan [member#12, foo#13, bar#14]
这使得与Tungsten的序列化明显地相关。
使用投影[^1]来获取相同的值:
val ds2: Dataset[Double] = ds.select($"member.something".as[Double])
ds2.explain()
== Physical Plan ==
LocalTableScan [something#25]
就这样!只需一步操作[^2]。除了将MyClass
编码到原始数据集中,没有其他序列化。
[^1]: 投影被定义为$"member.something"
而不是$"value.member.something"
的原因与Catalyst自动投影单列DataFrame的成员有关。
[^2]: 公平地说,在第一个物理计划中的步骤旁边的*
表示它们将由WholeStageCodegenExec
执行,从而使这些步骤成为一个单独的即时编译JVM函数,该函数具有其自己的运行时优化集合。因此,在实践中,您必须进行经验测试以真正评估每种方法的优劣。
ds.as[T].map { t: T => ... }
。请注意,数据转换成本会存在,因为内部Spark使用原始二进制数据而不是Scala类型。 - Sim