166得票13回答
如何设置Apache Spark Executor的内存?

如何增加Apache Spark执行器节点可用的内存? 我有一个2 GB的文件适合在Apache Spark中加载。目前我正在一台机器上运行Apache Spark,因此驱动程序和执行器位于同一台机器上。该计算机有8 GB的内存。 当我尝试将文件设置为缓存在内存中并计算文件中的行数时,我遇...

165得票14回答
Spark - 如何将 CSV 文件加载为 DataFrame?

我希望在Spark中读取CSV文件并将其转换为DataFrame,然后使用df.registerTempTable("table_name")命令将其存储在HDFS中。 我已经尝试过:scala> val df = sqlContext.load("hdfs:///csv/file/d...

158得票9回答
如何在Pyspark DataFrame中删除列

>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), ...

157得票7回答
如何在PySpark中将数据框的字符串类型列更改为双精度类型?

我有一个列为字符串的数据框。 我想在PySpark中将列类型更改为Double类型。 以下是我所做的方法:toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColum...

155得票12回答
如何在Spark中将RDD对象转换为DataFrame

我该如何将一个RDD(org.apache.spark.rdd.RDD[org.apache.spark.sql.Row])转换为一个Dataframe(org.apache.spark.sql.DataFrame)?我使用.rdd将Dataframe转换为RDD,处理后我希望将其转换回Dat...

149得票12回答
Spark Dataframe 区分具有重复名称的列

据我所知,在Spark Dataframe中,多个列可以具有相同的名称,如下面的数据框快照所示:[ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVect...

145得票5回答
如何定义DataFrame的分区?

我开始使用Spark 1.4.0中的Spark SQL和DataFrames。我想在Scala中为DataFrames定义自定义分区器,但不知道如何实现。 我正在处理的数据表之一包含类似于以下示例的按帐户分类的交易列表。Account Date Type Amoun...

141得票8回答
在PySpark中按降序排序

我正在使用 PySpark(Python 2.7.9 / Spark 1.3.1),有一个名为 GroupObject 的数据框需要进行筛选并按降序排序。尝试通过以下代码实现。group_by_dataframe.count().filter("`count` >= 10&qu...

137得票10回答
如何打印RDD的内容?

我试图将一个集合的内容打印到Spark控制台。 我有一个类型:linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] 然后我使用如下命令:scala> linesWithSessionId.map(li...

136得票5回答
如何终止正在运行的Spark应用程序?

我有一个正在运行的Spark应用程序,它占用了所有核心资源,我的其他应用程序将无法分配任何资源。 我做了一些快速研究,人们建议使用YARN kill或/bin/spark-class来终止命令。然而,我正在使用CDH版本,/bin/spark-class根本不存在,YARN kill app...