57得票2回答
如何优化Apache Spark应用程序中的Shuffle Spill

我正在运行一个带有两个工作节点的Spark流式应用程序。该应用包含联接和合并操作。 所有批次都成功完成,但是注意到Shuffle溢出指标与输入数据大小或输出数据大小不一致(溢出内存超过20倍)。 请在下面的图片中查找Spark阶段详细信息: 经过调查,发现: 当Shuffle数据没有...

50得票6回答
DataFrame连接优化 - 广播哈希连接

我正在尝试有效地将两个DataFrame连接起来,其中一个较大,而另一个稍微小一些。 有没有办法避免所有这些洗牌呢?我不能设置autoBroadCastJoinThreshold,因为它只支持整数 - 而我正在尝试广播的表略大于整数字节。 有没有一种方法强制广播忽略此变量?

17得票3回答
在使用Kafka直接流时,Yarn上的Spark堆外内存泄漏问题

我正在使用Java 1.8.0_45和Scala 2.11支持的Spark Streaming 1.4.0在Yarn(Apache distribution 2.6.0)上运行,并使用Kafka直接流。我遇到的问题是,驱动程序和执行程序容器的物理内存使用量逐渐增加,直到yarn容器停止它们。我...

11得票2回答
使用SBT构建Apache Spark:无效或损坏的jar文件

我正在尝试在本地机器上安装Spark。 我一直在遵循这个指南。 我已经安装了JDK-7(也安装了JDK-8)和Scala 2.11.7。 当我尝试使用sbt构建Spark 1.4.1时,出现了一个问题。 我得到了以下异常。NOTE: The sbt/sbt script has been re...

9得票2回答
如何处理SparkR中的空值条目

我有一个SparkSQL数据框。 其中一些条目为空,但它们不像NULL或NA那样行为。我该如何删除它们?您有什么想法吗? 在R中,我可以轻松删除它们,但在sparkR中,它说S4系统/方法存在问题。 谢谢。

8得票3回答
无法启动spark-shell

我正在使用Spark 1.4.1。 我可以无问题地使用spark-submit。 但是当我运行~/spark/bin/spark-shell时, 我遇到了下面的错误。 我已经配置了SPARK_HOME和JAVA_HOME。 然而,使用Spark 1.2时没有问题。 15/10/08 02:4...

7得票1回答
在Apache Spark SQL中,如何从HiveContext关闭metastore连接?

我的项目有适用于不同HiveContext配置的单元测试(有时它们被分组在一个文件中,因为它们按功能分组)。升级到Spark 1.4后,我遇到了很多“java.sql.SQLException: Another instance of Derby may have already booted...