如何增加Apache Spark执行器节点可用的内存? 我有一个2 GB的文件适合在Apache Spark中加载。目前我正在一台机器上运行Apache Spark,因此驱动程序和执行器位于同一台机器上。该计算机有8 GB的内存。 当我尝试将文件设置为缓存在内存中并计算文件中的行数时,我遇...
我希望在Spark中读取CSV文件并将其转换为DataFrame,然后使用df.registerTempTable("table_name")命令将其存储在HDFS中。 我已经尝试过:scala> val df = sqlContext.load("hdfs:///csv/file/d...
>>> a DataFrame[id: bigint, julian_date: string, user_id: bigint] >>> b DataFrame[id: bigint, quan_created_money: decimal(10,0), ...
我有一个列为字符串的数据框。 我想在PySpark中将列类型更改为Double类型。 以下是我所做的方法:toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColum...
我该如何将一个RDD(org.apache.spark.rdd.RDD[org.apache.spark.sql.Row])转换为一个Dataframe(org.apache.spark.sql.DataFrame)?我使用.rdd将Dataframe转换为RDD,处理后我希望将其转换回Dat...
据我所知,在Spark Dataframe中,多个列可以具有相同的名称,如下面的数据框快照所示:[ Row(a=107831, f=SparseVector(5, {0: 0.0, 1: 0.0, 2: 0.0, 3: 0.0, 4: 0.0}), a=107831, f=SparseVect...
我开始使用Spark 1.4.0中的Spark SQL和DataFrames。我想在Scala中为DataFrames定义自定义分区器,但不知道如何实现。 我正在处理的数据表之一包含类似于以下示例的按帐户分类的交易列表。Account Date Type Amoun...
我正在使用 PySpark(Python 2.7.9 / Spark 1.3.1),有一个名为 GroupObject 的数据框需要进行筛选并按降序排序。尝试通过以下代码实现。group_by_dataframe.count().filter("`count` >= 10&qu...
我试图将一个集合的内容打印到Spark控制台。 我有一个类型:linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] 然后我使用如下命令:scala> linesWithSessionId.map(li...
我有一个正在运行的Spark应用程序,它占用了所有核心资源,我的其他应用程序将无法分配任何资源。 我做了一些快速研究,人们建议使用YARN kill或/bin/spark-class来终止命令。然而,我正在使用CDH版本,/bin/spark-class根本不存在,YARN kill app...