根据Spark MLlib Guide,Spark有两个机器学习库:
但问题在于我想使用常见的机器学习算法(例如:Frequent Pattern Mining,Naive Bayes等),而
如果DataFrames比RDDs更好,而推荐使用
这里缺少什么要点?
spark.mllib
(基于RDD)和spark.ml
(基于DataFrames)。根据StackOverflow上的这个和这个问题,DataFrames比RDDs更好(也是较新的),应该尽可能使用它。但问题在于我想使用常见的机器学习算法(例如:Frequent Pattern Mining,Naive Bayes等),而
spark.ml
(基于DataFrames)并未提供此类方法,只有spark.mllib
(基于RDDs)提供了这些算法。如果DataFrames比RDDs更好,而推荐使用
spark.ml
,为什么不在该库中实现常用的机器学习方法呢?这里缺少什么要点?