10得票2回答
Spark多类分类示例

你们知道在Spark中哪里可以找到多分类的例子吗?我花了很多时间在书本和网上搜索,但目前我只知道根据文档最新版本是可能的。

10得票1回答
Spark ML管道使用随机森林在20MB数据集上运行时间过长

我正在使用Spark ML运行一些机器学习实验,在一个20MB的小数据集(Poker dataset)和参数网格的随机森林中,需要1小时30分钟才能完成。类似地,使用scikit-learn所需时间要少得多。 就环境而言,我正在测试2个从节点,每个节点有15GB内存,24个核心。我认为不应该...

10得票3回答
Spark Streaming中的序列化问题

我对Spark如何在底层处理数据感到困惑。例如,当我运行流作业并应用foreachRDD时,行为取决于变量是从外部范围捕获还是在内部初始化。val sparkConf = new SparkConf() dStream.foreachRDD(rdd => { val spark ...

10得票2回答
SPARK,ML,Tuning,CrossValidator:访问指标

为了构建一个朴素贝叶斯的多分类器,我使用CrossValidator在我的管道中选择最佳参数。val cv = new CrossValidator() .setEstimator(pipeline) .setEstimatorParamMaps(paramGr...

10得票1回答
在多列上使用Spark ML的OneHotEncoder

我已经能够创建一个管道,允许我一次性索引多个字符串列,但是我在对它们进行编码时遇到了困难,因为与索引不同,编码器不是一个估计器,所以我从未调用拟合函数,这与文档中的OneHotEncoder示例不同。import org.apache.spark.ml.feature.{StringIndex...

10得票1回答
Spark MLlib和Spark ML中的PCA

Spark现在有两个机器学习库-Spark MLlib和Spark ML。它们在实现方面有些重叠,但据我了解(作为全新于整个Spark生态系统的人),Spark ML是最好的选择,而MLlib仍然存在主要是为了向后兼容。 我的问题非常具体,与PCA有关。在MLlib的实现中,似乎存在列数的限...

10得票1回答
Spark中的StandardScaler不按预期工作

您有没有想过为什么Spark会对StandardScaler执行此操作?根据StandardScaler的定义: StandardScaler将一组特征标准化为零均值和标准偏差为1的数据。withStd标志将缩放数据以达到单位标准偏差,而withMean标志(默认为false)将在缩放之前...

10得票2回答
Spark StringIndexer.fit 在大记录上非常缓慢

我有大量的数据记录,格式如下示例:// +---+------+------+ // |cid|itemId|bought| // +---+------+------+ // |abc| 123| true| // |abc| 345| true| // |abc| 567|...

10得票1回答
如何从PySpark MultilayerPerceptronClassifier获取分类概率?

我在Python中使用Spark 2.0.1,我的数据集是DataFrame,所以我使用ML库(而不是MLLib)进行机器学习。 我有一个多层感知分类器,只有两个标签。 我的问题是,是否可能不仅获取标签,而且还可以(或仅仅)获取该标签的概率?就像不仅仅是对于每个输入返回0或1,而是像0.95...

10得票3回答
Spark v3.0.0 - 警告 DAGScheduler:正在广播大小为xx的大型任务二进制文件

我是Spark的新手。我正在使用以下配置参数在Spark Standalone(v3.0.0)中编写机器学习算法: SparkConf conf = new SparkConf(); conf.setMaster("local[*]"); conf.set("spark.driver.mem...