225得票22回答
如何停止在Spark控制台上显示INFO消息?

我想停止在Spark Shell上出现的各种消息。 我尝试编辑log4j.properties文件来停止这些消息。 以下是log4j.properties文件的内容。# Define the root logger with appender file log4j.rootCategory=W...

216得票1回答
Scala与Python的Spark性能比较

我更喜欢Python而不是Scala。但由于Spark是用Scala本地编写的,出于显而易见的原因,我期望在Scala中运行我的代码比Python版本要快。基于这个假设,我想学习并编写一些常见数据预处理代码的Scala版本,针对1GB数据的SpringLeaf竞赛中选取的数据进行操作,数据摘自...

214得票15回答
在pyspark数据框中显示不同的列值

使用pyspark dataframe,如何执行与Pandas中的df ['col'] .unique()等效的操作? 我想列出pyspark dataframe列中所有唯一的值。 不使用SQL(注册模板,然后对不同值进行SQL查询)。 也不需要groupby然后使用countDisti...

212得票7回答
向 Spark 作业添加 JAR 文件 - spark-submit

确实……这个问题已经被讨论了很多次。 然而,有很多模糊不清的地方,包括一些提供的答案……比如在jars/executor/driver配置或选项中重复JAR引用。 模糊和/或省略的细节 应该澄清每个选项的以下模糊、不清楚和/或省略的细节: ClassPath受到的影响 Driver...

207得票4回答
如何在Spark DataFrame中添加一个常量列?

我想在DataFrame中添加一列固定值(每行都相同)。当我使用withColumn时,会出现错误,具体如下:dt.withColumn('new_column', 10).head(5) ----------------------------------------------------...

195得票10回答
如何选择每个组的第一行?

我有一个按照以下方式生成的DataFrame:df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) 结果看起来像:+---...

192得票5回答
为什么需要在RDD上调用cache或persist方法?

当从文本文件或集合(或另一个RDD)创建一个弹性分布式数据集(RDD)时,我们需要显式地调用"cache"或"persist"来将RDD数据存储到内存中吗?还是RDD数据默认以分布式方式存储在内存中? 不需要显式调用"cache"或"persist"来将RDD数据存储到内存中。RDD数据默...

187得票10回答
如何将多个文本文件读入单个RDD?

我希望从hdfs位置读取一堆文本文件,并使用Spark对其进行迭代映射。 JavaRDD<String> records = ctx.textFile(args[1], 1); 只能一次读取一个文件。 我想读取多个文件并将它们作为单个RDD处理。怎么做呢?

185得票16回答
如何在Spark中关闭INFO日志记录?

我按照AWS EC2指南安装了Spark,使用bin/pyspark脚本可以成功启动程序并进入spark提示符,也能顺利完成快速入门指南。 但是,我却无法弄清楚如何在每个命令之后停止冗长的INFO日志输出。 我尝试了在启动应用程序的位置以及每个节点上的conf文件夹中的log4j.prop...

183得票11回答
如何使用PySpark向Spark DataFrame添加新列?

我有一个使用PySpark 1.5.1的Spark DataFrame,并且想要添加一个新列。我尝试了以下方法,但都没有成功:type(randomed_hours) # => list # Create in Python and transform to RDD new_col ...