57得票2回答
Apache Mahout和Apache Spark的MLlib有什么区别?

考虑一个拥有1000万个产品的电商网站MySQL products数据库。 我正在尝试设置一个分类模块来对产品进行分类。我使用Apache Sqoop将数据从MySQL导入到Hadoop。 我想使用Mahout作为机器学习框架之一,使用其Classification algorithms...

53得票2回答
Spark ML和MLLIB包有什么区别?

我注意到SparkML中有两个LinearRegressionModel类,一个在ML包(spark.ml)中,另一个在MLLib(spark.mllib)包中。 这两个类的实现方式有很大的不同,例如来自MLLib的类实现了Serializable接口,而另一个则没有。 顺便说一下,对于Ran...

51得票2回答
属性错误:'DataFrame'对象没有'map'属性。

我想使用以下代码将 Spark 数据框转换为 add:from pyspark.mllib.clustering import KMeans spark_df = sqlContext.createDataFrame(pandas_df) rdd = spark_df.map(lambda d...

50得票5回答
如何为Spark RDD中的元素分配唯一连续编号

我有一个包含用户、产品和评论的数据集(user, product, review),希望将其输入到mllib的ALS算法中。 该算法需要用户和产品是数字类型,而我的数据集中是字符串用户名和字符串SKU。 目前,我获取不同的用户和SKU,然后在Spark之外为它们分配数字ID。 我在想是否...

49得票5回答
如何使用spark-ml处理分类特征?

我如何使用 spark-ml而不是spark-mllib来处理分类数据? RandomForestClassifier、LogisticRegression等分类器似乎都有一个featuresCol参数,用于指定包含特征的列名,以及一个labelCol参数,用于指定包含标签类别的列名。 显...

47得票2回答
在Apache Spark中为具有大量列的数据集创建机器学习流水线的最佳方法

我正在使用Spark 2.1.1处理一个拥有约2000个特征的数据集,尝试创建一个基本的ML Pipeline,包含一些转换器和分类器。 为了简化问题,假设我正在使用的Pipeline包括一个VectorAssembler,一个StringIndexer和一个Classifier,这是一个相当...

46得票4回答
如何提供Spark MLlib模型的服务?

我正在评估用于生产ML应用程序的工具,其中之一是Spark MLlib,但我对训练后如何提供模型有一些问题? 例如,在Azure ML中,一旦训练完成,模型会被公开为Web服务,可以从任何应用程序中使用,并且在Amazon ML中也是类似的情况。 在Apache Spark中,如何提供/部...

45得票1回答
从任务中调用Java/Scala函数

背景 我最初的问题是,为什么在map函数中使用DecisionTreeModel.predict会引发异常?这与如何在Spark中使用MLlib生成(原始标签,预测标签)元组有关? 当我们使用Scala API 建议的方式获取RDD[LabeledPoint]的预测值时,只需对RDD进行映...

43得票1回答
稀疏CSR数组的外存处理

如何使用Python在磁盘上保存的稀疏CSR数组的块上并行应用某些函数?顺序地,可以通过使用joblib.dump保存CSR数组,使用joblib.load(..,mmap_mode =“r”)打开它,并逐个处理行块来完成。是否可以使用dask更有效地完成此操作? 特别是,假设一个人不需要所...

39得票3回答
列名中带有点号的Spark

我正在尝试从一个DataFrame中获取列,并将其转换为RDD [Vector]。问题在于,我有一些列的名称中带有“点号”,如下面的数据集:"col0.1","col1.2","col2.3","col3.4" 1,2,3,4 10,12,15,3 1,12,10,5 这是我正在做的事情:va...