我了解Dataset
的优势(如类型安全等),但是我找不到任何与Spark Datasets Limitations相关的文档。
是否有特定场景下,建议不使用 Spark Dataset
而改用 DataFrame
?
目前我们所有的数据工程流程都使用 Spark (Scala) DataFrame
。 我们想利用 Dataset
来完成所有新的流程。因此了解 Dataset
的所有限制和缺点将对我们有所帮助。
编辑:这并不类似于Spark 2.0 Dataset vs DataFrame,它解释了一些关于Dataframe / Dataset的操作,或者其他问题,其中大部分解释了rdd、dataframe和dataset之间的差异以及它们的发展历程。这是针对知道什么时候不使用Datasets。