得票数最多 'apache-spark-ml' 问题 - 第7页

我已经能够创建一个管道，允许我一次性索引多个字符串列，但是我在对它们进行编码时遇到了困难，因为与索引不同，编码器不是一个估计器，所以我从未调用拟合函数，这与文档中的OneHotEncoder示例不同。import org.apache.spark.ml.feature.{StringIndex...

scalaapache-sparkapache-spark-ml

10得票1回答

Spark MLlib和Spark ML中的PCA

Spark现在有两个机器学习库-Spark MLlib和Spark ML。它们在实现方面有些重叠，但据我了解（作为全新于整个Spark生态系统的人），Spark ML是最好的选择，而MLlib仍然存在主要是为了向后兼容。我的问题非常具体，与PCA有关。在MLlib的实现中，似乎存在列数的限...

apache-sparkapache-spark-mllibapache-spark-ml

10得票1回答

Spark中的StandardScaler不按预期工作

您有没有想过为什么Spark会对StandardScaler执行此操作？根据StandardScaler的定义： StandardScaler将一组特征标准化为零均值和标准偏差为1的数据。withStd标志将缩放数据以达到单位标准偏差，而withMean标志（默认为false）将在缩放之前...

apache-sparkpysparkapache-spark-ml

10得票2回答

Spark StringIndexer.fit 在大记录上非常缓慢

我有大量的数据记录，格式如下示例：// +---+------+------+ // |cid|itemId|bought| // +---+------+------+ // |abc| 123| true| // |abc| 345| true| // |abc| 567|...

apache-sparkapache-spark-mlapache-spark-dataset

10得票1回答

如何从PySpark MultilayerPerceptronClassifier获取分类概率?

我在Python中使用Spark 2.0.1，我的数据集是DataFrame，所以我使用ML库（而不是MLLib）进行机器学习。我有一个多层感知分类器，只有两个标签。我的问题是，是否可能不仅获取标签，而且还可以（或仅仅）获取该标签的概率？就像不仅仅是对于每个输入返回0或1，而是像0.95...

apache-sparkmachine-learningneural-networkpysparkapache-spark-ml

10得票3回答

Spark v3.0.0 - 警告 DAGScheduler：正在广播大小为xx的大型任务二进制文件

我是Spark的新手。我正在使用以下配置参数在Spark Standalone（v3.0.0）中编写机器学习算法： SparkConf conf = new SparkConf(); conf.setMaster("local[*]"); conf.set("spark.driver.mem...

javaapache-sparkapache-spark-mllibapache-spark-ml