Spark现在有两个机器学习库-Spark MLlib和Spark ML。它们在实现方面有些重叠,但据我了解(作为全新于整个Spark生态系统的人),Spark ML是最好的选择,而MLlib仍然存在主要是为了向后兼容。
我的问题非常具体,与PCA有关。在MLlib的实现中,似乎存在列数的限制
spark.mllib支持按行存储的高瘦矩阵和任何向量的PCA。
此外,如果您查看Java代码示例,还有这个
列数应该很小,例如小于1000。
另一方面,如果您查看ML文档,则没有提到任何限制。
那么,我的问题是-在Spark ML中是否也存在此限制?如果是,为什么会有限制,并且是否有任何解决方法可以使用此实现,即使列数很大?