我在使用Spark 1.3.0,我的数据存储在DataFrames中。
我需要进行类似sampleByKey()和sampleByKeyExact()的操作。
我看到了JIRA“为DataFrame添加近似分层抽样”(https://issues.apache.org/jira/browse/SPARK-7157)。
这是针对Spark 1.5的,但在此之前,有什么最简单的方法可以在DataFrames上实现类似于sampleByKey()和sampleByKeyExact()的功能吗?
谢谢 & 祝好
MK