得票数最多 'apache-spark-mllib' 问题

关联标签

57得票2回答

Apache Mahout和Apache Spark的MLlib有什么区别？

考虑一个拥有1000万个产品的电商网站MySQL products数据库。我正在尝试设置一个分类模块来对产品进行分类。我使用Apache Sqoop将数据从MySQL导入到Hadoop。我想使用Mahout作为机器学习框架之一，使用其Classification algorithms...

apache-sparkmahoutapache-spark-mllib

53得票2回答

Spark ML和MLLIB包有什么区别？

我注意到SparkML中有两个LinearRegressionModel类，一个在ML包（spark.ml）中，另一个在MLLib（spark.mllib）包中。这两个类的实现方式有很大的不同，例如来自MLLib的类实现了Serializable接口，而另一个则没有。顺便说一下，对于Ran...

apache-sparkapache-spark-mllibapache-spark-ml

51得票2回答

属性错误：'DataFrame'对象没有'map'属性。

我想使用以下代码将 Spark 数据框转换为 add:from pyspark.mllib.clustering import KMeans spark_df = sqlContext.createDataFrame(pandas_df) rdd = spark_df.map(lambda d...

pythonapache-sparkpysparkapache-spark-sqlapache-spark-mllib

50得票5回答

如何为Spark RDD中的元素分配唯一连续编号

我有一个包含用户、产品和评论的数据集(user, product, review)，希望将其输入到mllib的ALS算法中。该算法需要用户和产品是数字类型，而我的数据集中是字符串用户名和字符串SKU。目前，我获取不同的用户和SKU，然后在Spark之外为它们分配数字ID。我在想是否...

apache-sparkapache-spark-mllib

49得票5回答

如何使用spark-ml处理分类特征？

我如何使用 spark-ml而不是spark-mllib来处理分类数据？ RandomForestClassifier、LogisticRegression等分类器似乎都有一个featuresCol参数，用于指定包含特征的列名，以及一个labelCol参数，用于指定包含标签类别的列名。显...

apache-sparkcategorical-dataapache-spark-mlapache-spark-mllib

47得票2回答

在Apache Spark中为具有大量列的数据集创建机器学习流水线的最佳方法

我正在使用Spark 2.1.1处理一个拥有约2000个特征的数据集，尝试创建一个基本的ML Pipeline，包含一些转换器和分类器。为了简化问题，假设我正在使用的Pipeline包括一个VectorAssembler，一个StringIndexer和一个Classifier，这是一个相当...

scalaapache-sparkapache-spark-mllib

46得票4回答

如何提供Spark MLlib模型的服务？

我正在评估用于生产ML应用程序的工具，其中之一是Spark MLlib，但我对训练后如何提供模型有一些问题？例如，在Azure ML中，一旦训练完成，模型会被公开为Web服务，可以从任何应用程序中使用，并且在Amazon ML中也是类似的情况。在Apache Spark中，如何提供/部...

apache-sparkmachine-learningapache-spark-mllib

45得票1回答

从任务中调用Java/Scala函数

背景我最初的问题是，为什么在map函数中使用DecisionTreeModel.predict会引发异常？这与如何在Spark中使用MLlib生成(原始标签，预测标签)元组有关？当我们使用Scala API 建议的方式获取RDD[LabeledPoint]的预测值时，只需对RDD进行映...

pythonscalaapache-sparkpysparkapache-spark-mllib

43得票1回答

稀疏CSR数组的外存处理

如何使用Python在磁盘上保存的稀疏CSR数组的块上并行应用某些函数？顺序地，可以通过使用joblib.dump保存CSR数组，使用joblib.load（..，mmap_mode =“r”）打开它，并逐个处理行块来完成。是否可以使用dask更有效地完成此操作？特别是，假设一个人不需要所...

pythonscipyapache-spark-mllibdaskjoblib

39得票3回答

列名中带有点号的Spark

我正在尝试从一个DataFrame中获取列，并将其转换为RDD [Vector]。问题在于，我有一些列的名称中带有“点号”，如下面的数据集："col0.1","col1.2","col2.3","col3.4" 1,2,3,4 10,12,15,3 1,12,10,5 这是我正在做的事情：va...

scalaapache-sparkapache-spark-sqlapache-spark-mllibapache-spark-ml