得票数最多 'apache-spark' 问题 - 第2页

关联标签

225得票22回答

如何停止在Spark控制台上显示INFO消息？

我想停止在Spark Shell上出现的各种消息。我尝试编辑log4j.properties文件来停止这些消息。以下是log4j.properties文件的内容。# Define the root logger with appender file log4j.rootCategory=W...

apache-sparklog4jspark-submit

216得票1回答

Scala与Python的Spark性能比较

我更喜欢Python而不是Scala。但由于Spark是用Scala本地编写的，出于显而易见的原因，我期望在Scala中运行我的代码比Python版本要快。基于这个假设，我想学习并编写一些常见数据预处理代码的Scala版本，针对1GB数据的SpringLeaf竞赛中选取的数据进行操作，数据摘自...

scalaperformanceapache-sparkpysparkrdd

214得票15回答

在pyspark数据框中显示不同的列值

使用pyspark dataframe，如何执行与Pandas中的df ['col'] .unique()等效的操作? 我想列出pyspark dataframe列中所有唯一的值。不使用SQL（注册模板，然后对不同值进行SQL查询）。也不需要groupby然后使用countDisti...

pythonapache-sparkpysparkapache-spark-sql

212得票7回答

向 Spark 作业添加 JAR 文件 - spark-submit

确实……这个问题已经被讨论了很多次。然而，有很多模糊不清的地方，包括一些提供的答案……比如在jars/executor/driver配置或选项中重复JAR引用。模糊和/或省略的细节应该澄清每个选项的以下模糊、不清楚和/或省略的细节： ClassPath受到的影响 Driver...

javascalaapache-sparkjarspark-submit

207得票4回答

如何在Spark DataFrame中添加一个常量列？

我想在DataFrame中添加一列固定值（每行都相同）。当我使用withColumn时，会出现错误，具体如下：dt.withColumn('new_column', 10).head(5) ----------------------------------------------------...

pythonapache-sparkdataframepysparkapache-spark-sql

195得票10回答

如何选择每个组的第一行？

我有一个按照以下方式生成的DataFrame：df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) 结果看起来像：+---...

sqlscalaapache-sparkdataframeapache-spark-sql

192得票5回答

为什么需要在RDD上调用cache或persist方法？

当从文本文件或集合(或另一个RDD)创建一个弹性分布式数据集(RDD)时，我们需要显式地调用"cache"或"persist"来将RDD数据存储到内存中吗？还是RDD数据默认以分布式方式存储在内存中？不需要显式调用"cache"或"persist"来将RDD数据存储到内存中。RDD数据默...

scalaapache-sparkrdd

187得票10回答

如何将多个文本文件读入单个RDD？

我希望从hdfs位置读取一堆文本文件，并使用Spark对其进行迭代映射。 JavaRDD<String> records = ctx.textFile(args[1], 1); 只能一次读取一个文件。我想读取多个文件并将它们作为单个RDD处理。怎么做呢？

apache-spark

185得票16回答

如何在Spark中关闭INFO日志记录？

我按照AWS EC2指南安装了Spark，使用bin/pyspark脚本可以成功启动程序并进入spark提示符，也能顺利完成快速入门指南。但是，我却无法弄清楚如何在每个命令之后停止冗长的INFO日志输出。我尝试了在启动应用程序的位置以及每个节点上的conf文件夹中的log4j.prop...

pythonscalaapache-sparkhadooppyspark

183得票11回答

如何使用PySpark向Spark DataFrame添加新列？

我有一个使用PySpark 1.5.1的Spark DataFrame，并且想要添加一个新列。我尝试了以下方法，但都没有成功：type(randomed_hours) # => list # Create in Python and transform to RDD new_col ...

pythonapache-sparkdataframepysparkapache-spark-sql