得票数最多 'apache-spark-1.4' 问题

关联标签

57得票2回答

如何优化Apache Spark应用程序中的Shuffle Spill

我正在运行一个带有两个工作节点的Spark流式应用程序。该应用包含联接和合并操作。所有批次都成功完成，但是注意到Shuffle溢出指标与输入数据大小或输出数据大小不一致（溢出内存超过20倍）。请在下面的图片中查找Spark阶段详细信息：经过调查，发现：当Shuffle数据没有...

apache-sparkspark-streamingapache-spark-1.4

50得票6回答

DataFrame连接优化 - 广播哈希连接

我正在尝试有效地将两个DataFrame连接起来，其中一个较大，而另一个稍微小一些。有没有办法避免所有这些洗牌呢？我不能设置autoBroadCastJoinThreshold，因为它只支持整数 - 而我正在尝试广播的表略大于整数字节。有没有一种方法强制广播忽略此变量？

apache-sparkdataframeapache-spark-sqlapache-spark-1.4

17得票3回答

在使用Kafka直接流时，Yarn上的Spark堆外内存泄漏问题

我正在使用Java 1.8.0_45和Scala 2.11支持的Spark Streaming 1.4.0在Yarn（Apache distribution 2.6.0）上运行，并使用Kafka直接流。我遇到的问题是，驱动程序和执行程序容器的物理内存使用量逐渐增加，直到yarn容器停止它们。我...

apache-sparkspark-streaminghadoop-yarnapache-spark-1.4

11得票2回答

使用SBT构建Apache Spark：无效或损坏的jar文件

我正在尝试在本地机器上安装Spark。我一直在遵循这个指南。我已经安装了JDK-7（也安装了JDK-8）和Scala 2.11.7。当我尝试使用sbt构建Spark 1.4.1时，出现了一个问题。我得到了以下异常。NOTE: The sbt/sbt script has been re...

scalaapache-sparksbtapache-spark-1.4

9得票2回答

如何处理SparkR中的空值条目

我有一个SparkSQL数据框。其中一些条目为空，但它们不像NULL或NA那样行为。我该如何删除它们？您有什么想法吗？在R中，我可以轻松删除它们，但在sparkR中，它说S4系统/方法存在问题。谢谢。

rapache-sparksparkrapache-spark-1.4

8得票3回答

无法启动spark-shell

我正在使用Spark 1.4.1。我可以无问题地使用spark-submit。但是当我运行~/spark/bin/spark-shell时，我遇到了下面的错误。我已经配置了SPARK_HOME和JAVA_HOME。然而，使用Spark 1.2时没有问题。 15/10/08 02:4...

apache-sparkapache-spark-1.4

7得票1回答

在Apache Spark SQL中，如何从HiveContext关闭metastore连接？

我的项目有适用于不同HiveContext配置的单元测试（有时它们被分组在一个文件中，因为它们按功能分组）。升级到Spark 1.4后，我遇到了很多“java.sql.SQLException: Another instance of Derby may have already booted...

apache-sparkthriftapache-spark-sqlapache-spark-1.4